GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games
Signal
72
Hype
25
En 3 lignesGVGAI-LLM est un benchmark de jeux vidéo pour évaluer le raisonnement spatial et la résolution de problèmes des LLM. Basé sur le framework General Video Game AI, il contient 118 jeux en ASCII testant la planification et le raisonnement logique. Les évaluations zéro-shot révèlent des limitations persistantes des modèles actuels en raisonnement spatial, partiellement améliorées par prompting structuré.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain