arXiv cs.CL·19 mai 2026

Evaluating Language Models' Evaluations of Games

Signal

Hype

En 3 lignesÉtude arXiv évaluant comment les modèles de langage et de raisonnement jugent les jeux de plateau. Sur 100+ jeux et 450 jugements humains, les modèles de raisonnement s'alignent mieux aux humains que les LLM classiques pour évaluer l'équité et le plaisir des jeux. Paradoxe : plus les modèles approchent l'optimalité théorique des jeux, moins ils correspondent aux préférences humaines.

Lire la source

Ton avis ?

Raisonnement Évaluations Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Evaluating Language Models' Evaluations of Games

Autres angles sur ce sujet