arXiv cs.AI·22 mai 2026

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Signal

Hype

En 3 lignesOSCToM combine RL et modèles de substitution pour générer des conflits observateur-agent dans les tâches de théorie de l'esprit. Sur FANToM (benchmark asymétrique en information), OSCToM-8B atteint 76% de précision vs 0,2% pour ExploreToM. La synthèse de données est 6x plus efficace.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Autres angles sur ce sujet