Evaluating Language Models' Evaluations of Games
Signal
72
Hype
15
En 3 lignesÉtude arXiv évaluant comment les modèles de langage et de raisonnement jugent les jeux de plateau. Sur 100+ jeux et 450 jugements humains, les modèles de raisonnement s'alignent mieux aux humains que les LLM classiques pour évaluer l'équité et le plaisir des jeux. Paradoxe : plus les modèles approchent l'optimalité théorique des jeux, moins ils correspondent aux préférences humaines.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain