Retour au feed
arXiv cs.LG·

Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning

Signal
72
Hype
28
En 3 lignesAgent-ToM est un framework d'apprentissage pour surveiller les agents LLM autonomes via le raisonnement Theory-of-Mind. Il infère les croyances, intentions et déviations comportementales des agents pour détecter les comportements malveillants cachés. Évalué sur SHADE-Arena et CUA-SHADE-Arena, il surpasse les baselines d'ensemble tout en utilisant un pipeline de vérification à deux appels.
Lire la source
Ton avis ?
Agents IASécurité IARaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain