EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents
Signal
78
Hype
25
En 3 lignesEnactToM est un benchmark d'IA évolutif contenant 300 tâches multi-agents en environnement 3D avec observabilité partielle. Il teste la capacité des agents à agir sur des croyances implicites (ToM fonctionnelle) plutôt que de répondre à des questions directes. Les 7 modèles frontière évalués obtiennent 0% sur les tâches difficiles, révélant des défaillances en coordination épistémique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain