Retour au feed
arXiv cs.AI·

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Signal
75
Hype
15
En 3 lignesDARC est une méthode d'inférence sans réentraînement qui reformule la sélection de réponses comme une optimisation robuste face aux désaccords d'annotateurs. Elle reclasse les candidats en maximisant un objectif de satisfaction robuste aux divergences KL, avec contrôles de déploiement pour limiter le risque entropique sans réentraînement.
Lire la source
Ton avis ?
AlignementReinforcement learningÉvaluations

Résumé généré par Claude — vérifié par l'humain