arXiv cs.AI·19 mai 2026

Position: AI Evaluations Should be Grounded on a Theory of Capability

Signal

Hype

En 3 lignesArticle de position argumentant que les évaluations de modèles IA doivent s'appuyer sur une théorie explicite de la capacité, plutôt que de traiter les scores comme des mesures directes. Les auteurs montrent empiriquement que les performances rapportées dépendent fortement des hypothèses de modélisation et proposent une « Evaluation Card » pour documenter les décisions sous-jacentes.

Lire la source

Ton avis ?

Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Position: AI Evaluations Should be Grounded on a Theory of Capability

Autres angles sur ce sujet