arXiv cs.CL·1 juin 2026

Auditing LLM Benchmarks with Item Response Theory

Signal

Hype

En 3 lignesUne méthode basée sur la théorie de la réponse aux items détecte les erreurs d'étiquetage dans 7 benchmarks LLM avec 95% de précision sur les 200 premiers exemples. Analyse de 114 modèles révèle des mislabels dus à des heuristiques mécaniques, des erreurs d'annotation héritées et des items ambigus. Les reward models se spécialisent dans les préférences stylistiques plutôt que la connaissance factuelle.

Lire la source

Ton avis ?

Benchmarks Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Auditing LLM Benchmarks with Item Response Theory

Autres angles sur ce sujet