Auditing LLM Benchmarks with Item Response Theory
Signal
78
Hype
15
En 3 lignesUne méthode basée sur la théorie de la réponse aux items détecte les erreurs d'étiquetage dans 7 benchmarks LLM avec 95% de précision sur les 200 premiers exemples. Analyse de 114 modèles révèle des mislabels dus à des heuristiques mécaniques, des erreurs d'annotation héritées et des items ambigus. Les reward models se spécialisent dans les préférences stylistiques plutôt que la connaissance factuelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain