Retour au feed
arXiv cs.CL·

Auditing LLM Benchmarks with Item Response Theory

Signal
78
Hype
15
En 3 lignesUne méthode basée sur la théorie de la réponse aux items détecte les erreurs d'étiquetage dans 7 benchmarks LLM avec 95% de précision sur les 200 premiers exemples. Analyse de 114 modèles révèle des mislabels dus à des heuristiques mécaniques, des erreurs d'annotation héritées et des items ambigus. Les reward models se spécialisent dans les préférences stylistiques plutôt que la connaissance factuelle.
Lire la source
Ton avis ?
BenchmarksÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain