Retour au feed
arXiv cs.AI·

Robust and Efficient Guardrails with Latent Reasoning

Signal
78
Hype
18
En 3 lignesCOLAGUARD, un modèle de garde-fou, transfère le raisonnement de sécurité multi-étapes dans un espace latent continu via un curriculum d'entraînement par étapes. Évalué sur 10 tâches de modération et 8 benchmarks de sécurité, il améliore macro-F1 de 8,24 points sur Llama Guard 3, égale GuardReasoner en performance tout en offrant 12,9X d'accélération et 22,4X de réduction d'usage de tokens.
Lire la source
Ton avis ?
Sécurité IARaisonnementÉvaluationsLlama

Résumé généré par Claude — vérifié par l'humain