arXiv cs.CL·1 juin 2026

Configurable Reward Model for Balanced Safety Alignment

Signal

Hype

En 3 lignesCSRM (Configurable Safety Reward Model) optimise conjointement la conformité de sécurité calibrée et la modélisation de récompense pour adapter les LLM à des exigences de sécurité hétérogènes et évolutives. Atteint 94,6% F1 sur CoSApien et 75,8% F1 sur DynaBench sans annotation humaine supplémentaire.

Lire la source

Ton avis ?

Sécurité IA Alignement Reinforcement learning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Configurable Reward Model for Balanced Safety Alignment

Autres angles sur ce sujet