arXiv cs.AI·19 mai 2026

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Signal

Hype

En 3 lignesArticle arXiv sur les limites spatiales des MLLMs en environnements multi-agents. Les modèles souffrent d'une « illusion cartésienne » : ils manquent de compréhension 3D topologique ancrée. Les auteurs proposent un module « Epistemic Sensory Bottleneck » avec une chaîne de pensée basée sur des ancres pour améliorer l'inférence spatiale de second ordre (Theory of Mind). Baseline zéro-shot : 42% de précision.

Lire la source

Ton avis ?

Vision Multi-agents Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Autres angles sur ce sujet