Retour au feed
arXiv cs.AI·

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

Signal
78
Hype
15
En 3 lignesOmniToM est un benchmark évaluant la théorie de l'esprit dans les LLM via la modélisation explicite des croyances. Construit sur 895 histoires (22 343 propositions de croyances annotées), il teste l'extraction et l'étiquetage des états mentaux selon 7 dimensions. Les résultats montrent que les LLM actuels peinent à transformer les faits narratifs en croyances d'acteurs.
Lire la source
Ton avis ?
BenchmarksRaisonnementÉvaluations

Résumé généré par Claude — vérifié par l'humain