arXiv cs.AI·27 mai 2026

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

Signal

Hype

En 3 lignesOmniToM est un benchmark évaluant la théorie de l'esprit dans les LLM via la modélisation explicite des croyances. Construit sur 895 histoires (22 343 propositions de croyances annotées), il teste l'extraction et l'étiquetage des états mentaux selon 7 dimensions. Les résultats montrent que les LLM actuels peinent à transformer les faits narratifs en croyances d'acteurs.

Lire la source

Ton avis ?

Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

Autres angles sur ce sujet