Retour au feed
arXiv cs.AI·

Estimating Item Difficulty with Large Language Models as Experts

Signal
72
Hype
18
En 3 lignesÉtude évaluant trois LLMs off-the-shelf pour estimer la difficulté d'items pédagogiques sans données de réponse. Sur 6 domaines de mathématiques primaires, les corrélations de Spearman montrent alignement modéré à fort avec les difficultés empiriques. Les comparaisons par paires surpassent les jugements absolus; l'ajout de probabilités de tokens et d'exemples few-shot améliore les résultats.
Lire la source
Ton avis ?
Prompt engineeringÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain