arXiv cs.CL·19 mai 2026

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Signal

Hype

En 3 lignesNouvel article arXiv proposant HRC (Hybrid Reward-Cyclic), un modèle de récompense qui décompose les préférences humaines en composantes transitives (scalaires) et cycliques (vectorielles) via la théorie des jeux. Introduit DSPPO (Dynamic Self-Play Preference Optimization) pour l'alignement dynamique. Améliore RewardBench 2 (+1.23% sur Gemma-2B-it) et atteint 44.75% sur AlpacaEval 2.0.

Lire la source

Ton avis ?

Reinforcement learning Alignement Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Autres angles sur ce sujet