Evaluating Language Models' Evaluations of Games
Signal
72
Hype
15
En 3 lignesÉtude arXiv comparant les évaluations de jeux par modèles de langage et de raisonnement contre des jugements humains. Dataset de 100+ jeux de plateau et 450+ évaluations humaines. Les modèles de raisonnement s'alignent mieux aux humains, mais montrent une relation non-monotone : plus ils approchent l'optimalité théorique des jeux, moins ils correspondent aux données humaines.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain