arXiv cs.LG·26 mai 2026

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

Signal

Hype

En 3 lignesChaosBench-Logic v2 est un benchmark de 40 886 questions évaluant le raisonnement logique de 14 LLM sur 165 systèmes dynamiques. Le protocole CARE révèle des défaillances critiques : le raisonnement sur les transitions de régime reste quasi-aléatoire (MCC=0.05), tandis que la déduction FOL atteint MCC=0.52. Qwen 2.5-32B surpasse les modèles propriétaires en diagnostics d'indicateurs.

Lire la source

Ton avis ?

Benchmarks Raisonnement Qwen Évaluations

Résumé généré par Claude — vérifié par l'humain

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

Autres angles sur ce sujet