Generative-Evaluative Agreement: A Necessary Validity Criterion for LLM-Enabled Adaptive Assessment
Signal
72
Hype
18
En 3 lignesUn article arXiv introduit le critère de validité « Generative-Evaluative Agreement » (GEA) pour évaluer si un LLM peut scorer correctement les réponses qu'il a lui-même générées. Sur un test adaptatif à deux étapes, le modèle récupère ~70% de la variance intentionnelle avec biais positif systématique. GEA est fort (r>0.7) pour les compétences syntaxiques mais proche de zéro pour les compétences de conception.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain