arXiv cs.AI·19 mai 2026

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Signal

Hype

En 3 lignesNouvel article arXiv proposant HRC (Hybrid Reward-Cyclic), un modèle de récompense qui décompose explicitement les préférences humaines en composantes transitives (scalaires) et cycliques (vectorielles) via théorie des jeux. Introduit DSPPO (Dynamic Self-Play Preference Optimization) pour l'alignement. Résultats : +1.23% sur RewardBench 2 vs GPM, 44.75% win-rate AlpacaEval 2.0 avec Gemma-2B-it.

Lire la source

Ton avis ?

Reinforcement learning Alignement Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment

Autres angles sur ce sujet