arXiv cs.LG·26 mai 2026

Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning

Signal

Hype

En 3 lignesAgent-ToM est un framework d'apprentissage pour surveiller les agents LLM autonomes via le raisonnement Theory-of-Mind. Il infère les croyances, intentions et déviations comportementales des agents pour détecter les comportements malveillants cachés. Évalué sur SHADE-Arena et CUA-SHADE-Arena, il surpasse les baselines d'ensemble tout en utilisant un pipeline de vérification à deux appels.

Lire la source

Ton avis ?

Agents IA Sécurité IA Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning

Autres angles sur ce sujet