Retour au feed
arXiv cs.CL·

General Preference Reinforcement Learning

Signal
75
Hype
25
En 3 lignesNouvelle méthode GPRL (General Preference Reinforcement Learning) qui remplace les reward models scalaires par un General Preference Model (GPM) utilisant k sous-espaces asymétriques. Teste sur Llama-3-8B-Instruct : 56,51% win rate AlpacaEval 2.0, surpasse SimPO et SPPO sur Arena-Hard, MT-Bench, WildBench en évitant l'exploitation d'un seul axe.
Lire la source
Ton avis ?
Reinforcement learningLlamaAlignementBenchmarks

Résumé généré par Claude — vérifié par l'humain