arXiv cs.AI·19 mai 2026

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games

Signal

Hype

En 3 lignesGVGAI-LLM est un benchmark de jeux vidéo pour évaluer le raisonnement spatial et la résolution de problèmes des LLM. Basé sur le framework General Video Game AI, il contient 118 jeux en ASCII testant la planification et le raisonnement logique. Les évaluations zéro-shot révèlent des limitations persistantes des modèles actuels en raisonnement spatial, partiellement améliorées par prompting structuré.

Lire la source

Ton avis ?

Benchmarks Raisonnement Agents IA Évaluations

Résumé généré par Claude — vérifié par l'humain

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games

Autres angles sur ce sujet