Retour au feed
arXiv cs.CL·

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

Signal
78
Hype
15
En 3 lignesAERIC est un moniteur de sécurité léger (387 paramètres) qui détecte les dialogues nuisibles implicites en analysant les états cachés pendant le décodage, sans passe forward supplémentaire. Sur DiaSafety et Harmful Advice, il améliore l'AUROC de 0.683→0.714 et 0.822→0.858. Le déploiement ajoute seulement 2.34% de latence contre 79.40% pour Qwen3Guard-Stream-4B.
Lire la source
Ton avis ?
Sécurité IAAlignementRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain