AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
Signal
78
Hype
15
En 3 lignesAERIC est un moniteur de sécurité léger (387 paramètres) qui détecte les dialogues nuisibles implicites en analysant les états cachés pendant le décodage, sans passe forward supplémentaire. Sur DiaSafety et Harmful Advice, il améliore l'AUROC de 0.683→0.714 et 0.822→0.858. Le déploiement ajoute seulement 2.34% de latence contre 79.40% pour Qwen3Guard-Stream-4B.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain