CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety
Signal
72
Hype
28
En 3 lignesCR4T est un framework de sécurité pour LLM destinés aux adolescents. Au lieu de refuser les requêtes problématiques, il réécrit les réponses non-sûres en guidance développementalement appropriée. Combinant détection de risque légère et réécriture conditionnée par domaine, CR4T réduit les refus inutiles tout en préservant les intentions bienveillantes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain