Retour au feed
arXiv cs.CL·

Token-weighted Direct Preference Optimization with Attention

Signal
78
Hype
25
En 3 lignesToken-weighted DPO (TwDPO) et AttentionPO proposent une optimisation des préférences qui pondère les tokens selon leur importance. AttentionPO utilise l'attention du modèle lui-même pour estimer les poids, sans modèle de récompense séparé. Résultats : amélioration sur AlpacaEval, MT-Bench, ArenaHard.
Lire la source
Ton avis ?
Reinforcement learningAlignementBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain