Retour au feed
arXiv cs.AI·

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Signal
72
Hype
25
En 3 lignesNouvel article arXiv proposant HRC (Hybrid Reward-Cyclic), un modèle de récompense qui décompose explicitement les préférences humaines en composantes transitives (scalaires) et cycliques (vectorielles) via théorie des jeux. Introduit DSPPO (Dynamic Self-Play Preference Optimization) pour l'alignement. Résultats : +1.23% sur RewardBench 2 vs GPM, 44.75% win-rate AlpacaEval 2.0 avec Gemma-2B-it.
Lire la source
Ton avis ?
Reinforcement learningAlignementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain