OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
Signal
78
Hype
25
En 3 lignesOSCToM combine RL et modèles de substitution pour générer des conflits observateur-agent dans les tâches de théorie de l'esprit. Sur FANToM (benchmark asymétrique en information), OSCToM-8B atteint 76% de précision vs 0,2% pour ExploreToM. La synthèse de données est 6x plus efficace.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain