arXiv cs.AI·19 mai 2026

Estimating Item Difficulty with Large Language Models as Experts

Signal

Hype

En 3 lignesÉtude évaluant trois LLMs off-the-shelf pour estimer la difficulté d'items pédagogiques sans données de réponse. Sur 6 domaines de mathématiques primaires, les corrélations de Spearman montrent alignement modéré à fort avec les difficultés empiriques. Les comparaisons par paires surpassent les jugements absolus; l'ajout de probabilités de tokens et d'exemples few-shot améliore les résultats.

Lire la source

Ton avis ?

Prompt engineering Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Estimating Item Difficulty with Large Language Models as Experts

Autres angles sur ce sujet