OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
Signal
78
Hype
15
En 3 lignesOmniToM est un benchmark évaluant la théorie de l'esprit dans les LLM via la modélisation explicite des croyances. Construit sur 895 histoires (22 343 propositions de croyances annotées), il teste l'extraction et l'étiquetage des états mentaux selon 7 dimensions. Les résultats montrent que les LLM actuels peinent à transformer les faits narratifs en croyances d'acteurs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain