arXiv cs.AI·19 mai 2026

Evaluating Language Models' Evaluations of Games

Signal

Hype

En 3 lignesÉtude arXiv comparant les évaluations de jeux par modèles de langage et de raisonnement contre des jugements humains. Dataset de 100+ jeux de plateau et 450+ évaluations humaines. Les modèles de raisonnement s'alignent mieux aux humains, mais montrent une relation non-monotone : plus ils approchent l'optimalité théorique des jeux, moins ils correspondent aux données humaines.

Lire la source

Ton avis ?

Raisonnement Évaluations Benchmarks

Résumé généré par Claude — vérifié par l'humain

Evaluating Language Models' Evaluations of Games

Autres angles sur ce sujet