arXiv cs.CL·19 mai 2026

General Preference Reinforcement Learning

Signal

Hype

En 3 lignesNouvelle méthode GPRL (General Preference Reinforcement Learning) qui remplace les reward models scalaires par un General Preference Model (GPM) utilisant k sous-espaces asymétriques. Teste sur Llama-3-8B-Instruct : 56,51% win rate AlpacaEval 2.0, surpasse SimPO et SPPO sur Arena-Hard, MT-Bench, WildBench en évitant l'exploitation d'un seul axe.

Lire la source

Ton avis ?

Reinforcement learning Llama Alignement Benchmarks

Résumé généré par Claude — vérifié par l'humain

General Preference Reinforcement Learning

Autres angles sur ce sujet