Retour au feed
arXiv cs.AI·

COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

Signal
72
Hype
25
En 3 lignesCOMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.
Lire la source
Ton avis ?
Agents IASécurité IAAlignementRaisonnement

Résumé généré par Claude — vérifié par l'humain