arXiv cs.AI·20 mai 2026

Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment

Signal

Hype

En 3 lignesUn article arXiv introduit le critère de validité « Generative-Evaluative Agreement » (GEA) pour évaluer si un LLM peut scorer correctement les réponses qu'il a lui-même générées. Sur un test adaptatif à deux étapes, le modèle récupère ~70% de la variance intentionnelle avec biais positif systématique. GEA est fort (r>0.7) pour les compétences syntaxiques mais proche de zéro pour les compétences de conception.

Lire la source

Ton avis ?

Évaluations Raisonnement Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment

Autres angles sur ce sujet