arXiv cs.AI·19 mai 2026

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Signal

Hype

En 3 lignesNouvelle métrique d'évaluation décomposant l'efficacité en tokens des LLMs raisonnants. Introduit un protocole trace-optional séparant taux de complétude, exactitude conditionnelle et longueur générée. Évalue 14 modèles open-weight sur CogniLoad, GSM8K, ProofWriter, ZebraLogic. Identifie trois modes de défaillance distincts : limites logiques, contextuelles et verbosité.

Lire la source

Ton avis ?

Raisonnement Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Autres angles sur ce sujet