Retour au feed
arXiv cs.CL·

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Signal
72
Hype
25
En 3 lignesNouvel article arXiv proposant HRC (Hybrid Reward-Cyclic), un modèle de récompense qui décompose les préférences humaines en composantes transitives (scalaires) et cycliques (vectorielles) via la théorie des jeux. Introduit DSPPO (Dynamic Self-Play Preference Optimization) pour l'alignement dynamique. Améliore RewardBench 2 (+1.23% sur Gemma-2B-it) et atteint 44.75% sur AlpacaEval 2.0.
Lire la source
Ton avis ?
Reinforcement learningAlignementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain