arXiv cs.CL·22 mai 2026

Token-weighted Direct Preference Optimization with Attention

Signal

Hype

En 3 lignesToken-weighted DPO (TwDPO) et AttentionPO proposent une optimisation des préférences qui pondère les tokens selon leur importance. AttentionPO utilise l'attention du modèle lui-même pour estimer les poids, sans modèle de récompense séparé. Résultats : amélioration sur AlpacaEval, MT-Bench, ArenaHard.

Lire la source

Ton avis ?

Reinforcement learning Alignement Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Token-weighted Direct Preference Optimization with Attention

Autres angles sur ce sujet