Retour au feed
arXiv cs.AI·

Position: AI Evaluations Should be Grounded on a Theory of Capability

Signal
72
Hype
15
En 3 lignesArticle de position argumentant que les évaluations de modèles IA doivent s'appuyer sur une théorie explicite de la capacité, plutôt que de traiter les scores comme des mesures directes. Les auteurs montrent empiriquement que les performances rapportées dépendent fortement des hypothèses de modélisation et proposent une « Evaluation Card » pour documenter les décisions sous-jacentes.
Lire la source
Ton avis ?
ÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain