Retour au feed
arXiv cs.CL·

Evaluating Language Models' Evaluations of Games

Signal
72
Hype
15
En 3 lignesÉtude arXiv évaluant comment les modèles de langage et de raisonnement jugent les jeux de plateau. Sur 100+ jeux et 450 jugements humains, les modèles de raisonnement s'alignent mieux aux humains que les LLM classiques pour évaluer l'équité et le plaisir des jeux. Paradoxe : plus les modèles approchent l'optimalité théorique des jeux, moins ils correspondent aux préférences humaines.
Lire la source
Ton avis ?
RaisonnementÉvaluationsBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain