COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents
Signal
72
Hype
25
En 3 lignesCOMPASS est un framework d'alignement de sécurité pour agents de recherche LLM multi-étapes. Il combine l'exploration d'arbres cognitifs (CTE) pour synthétiser des trajectoires d'attaque et l'alignement introspectif (ISA) pour superviser les actions intermédiaires risquées. Résultats : meilleur compromis sécurité-utilité avec moins de données d'entraînement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain