Retour au feed
arXiv cs.LG·

ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

Signal
82
Hype
15
En 3 lignesChaosBench-Logic v2 est un benchmark de 40 886 questions évaluant le raisonnement logique de 14 LLM sur 165 systèmes dynamiques. Le protocole CARE révèle des défaillances critiques : le raisonnement sur les transitions de régime reste quasi-aléatoire (MCC=0.05), tandis que la déduction FOL atteint MCC=0.52. Qwen 2.5-32B surpasse les modèles propriétaires en diagnostics d'indicateurs.
Lire la source
Ton avis ?
BenchmarksRaisonnementQwenÉvaluations

Résumé généré par Claude — vérifié par l'humain