General Preference Reinforcement Learning
Signal
75
Hype
25
En 3 lignesNouvelle méthode GPRL (General Preference Reinforcement Learning) qui remplace les reward models scalaires par un General Preference Model (GPM) utilisant k sous-espaces asymétriques. Teste sur Llama-3-8B-Instruct : 56,51% win rate AlpacaEval 2.0, surpasse SimPO et SPPO sur Arena-Hard, MT-Bench, WildBench en évitant l'exploitation d'un seul axe.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain