arXiv cs.AI·19 mai 2026

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Signal

Hype

En 3 lignesDARC est une méthode d'inférence sans réentraînement qui reformule la sélection de réponses comme une optimisation robuste face aux désaccords d'annotateurs. Elle reclasse les candidats en maximisant un objectif de satisfaction robuste aux divergences KL, avec contrôles de déploiement pour limiter le risque entropique sans réentraînement.

Lire la source

Ton avis ?

Alignement Reinforcement learning Évaluations

Résumé généré par Claude — vérifié par l'humain

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Autres angles sur ce sujet