Retour au feed
arXiv cs.CL·

Configurable Reward Model for Balanced Safety Alignment

Signal
78
Hype
22
En 3 lignesCSRM (Configurable Safety Reward Model) optimise conjointement la conformité de sécurité calibrée et la modélisation de récompense pour adapter les LLM à des exigences de sécurité hétérogènes et évolutives. Atteint 94,6% F1 sur CoSApien et 75,8% F1 sur DynaBench sans annotation humaine supplémentaire.
Lire la source
Ton avis ?
Sécurité IAAlignementReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain