TRACES: Proactive Safety Auditing for Multi-Turn LLM Agents via Trajectory-State Modeling
Signal
78
Hype
22
En 3 lignesTRACES est un auditeur de sécurité proactif pour agents LLM multi-tours qui détecte les dérives vers des comportements dangereux à partir des représentations cachées d'un LLM observateur. Entraîné avec supervision faible au niveau trajectoire, il produit des estimations denses de risque à chaque étape, améliorant la prédiction de sécurité et la discrimination des risques sur plusieurs benchmarks.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain