Token-weighted Direct Preference Optimization with Attention
Signal
78
Hype
25
En 3 lignesToken-weighted DPO (TwDPO) et AttentionPO proposent une optimisation des préférences qui pondère les tokens selon leur importance. AttentionPO utilise l'attention du modèle lui-même pour estimer les poids, sans modèle de récompense séparé. Résultats : amélioration sur AlpacaEval, MT-Bench, ArenaHard.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain