Robust and Efficient Guardrails with Latent Reasoning
Signal
78
Hype
18
En 3 lignesCOLAGUARD, un modèle de garde-fou, transfère le raisonnement de sécurité multi-étapes dans un espace latent continu via un curriculum d'entraînement par étapes. Évalué sur 10 tâches de modération et 8 benchmarks de sécurité, il améliore macro-F1 de 8,24 points sur Llama Guard 3, égale GuardReasoner en performance tout en offrant 12,9X d'accélération et 22,4X de réduction d'usage de tokens.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain