Configurable Reward Model for Balanced Safety Alignment
Signal
78
Hype
22
En 3 lignesCSRM (Configurable Safety Reward Model) optimise conjointement la conformité de sécurité calibrée et la modélisation de récompense pour adapter les LLM à des exigences de sécurité hétérogènes et évolutives. Atteint 94,6% F1 sur CoSApien et 75,8% F1 sur DynaBench sans annotation humaine supplémentaire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain