Reddit r/LocalLLaMA·3 juin 2026

Can LLMs Adhere to Strict 2D Spatial Constraints? (Testing with Sokoban)

Signal

Hype

En 3 lignesBenchmark de spatial reasoning sur LLMs avec Sokoban en zéro-shot. ChatGPT, Qwen3.7-max et Gemini 3.5-thinking réussissent ; Gemini 3.5-flash, Qwen 3.6/3.7-plus, GLM-5 et Gemma4 échouent. Format strict (UP/DOWN/LEFT/RIGHT uniquement) élimine le chain-of-thought.

Lire la source

Ton avis ?

Benchmarks Raisonnement GPT Gemini Qwen

Résumé généré par Claude — vérifié par l'humain

Can LLMs Adhere to Strict 2D Spatial Constraints? (Testing with Sokoban)

Autres angles sur ce sujet