Can LLMs Adhere to Strict 2D Spatial Constraints? (Testing with Sokoban)
Signal
72
Hype
35
En 3 lignesBenchmark de spatial reasoning sur LLMs avec Sokoban en zéro-shot. ChatGPT, Qwen3.7-max et Gemini 3.5-thinking réussissent ; Gemini 3.5-flash, Qwen 3.6/3.7-plus, GLM-5 et Gemma4 échouent. Format strict (UP/DOWN/LEFT/RIGHT uniquement) élimine le chain-of-thought.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain