Retour au feed
arXiv cs.AI·

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Signal
72
Hype
28
En 3 lignesArticle arXiv sur les limites spatiales des MLLMs en environnements multi-agents. Les modèles souffrent d'une « illusion cartésienne » : ils manquent de compréhension 3D topologique ancrée. Les auteurs proposent un module « Epistemic Sensory Bottleneck » avec une chaîne de pensée basée sur des ancres pour améliorer l'inférence spatiale de second ordre (Theory of Mind). Baseline zéro-shot : 42% de précision.
Lire la source
Ton avis ?
VisionMulti-agentsRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain