Retour au feed
arXiv cs.CL·

Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs

Signal
78
Hype
15
En 3 lignesPapier arXiv proposant un protocole d'évaluation décomposant l'efficacité en tokens des LLMs raisonnants. Analyse 14 modèles open-weight sur CogniLoad, GSM8K, ProofWriter, ZebraLogic en séparant taux de complétude, correction conditionnelle et longueur générée. Identifie trois modes de défaillance : limité par la logique, par le contexte ou par la verbosité.
Lire la source
Ton avis ?
RaisonnementÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain