Retour au feed
arXiv cs.CL·

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

Signal
78
Hype
25
En 3 lignesNouvelle stratégie de sélection de données pour l'alignement LLM basée sur l'écart de récompense implicite DPO. En ciblant les exemples de préférence les plus difficiles (petit écart), la méthode atteint des performances supérieures avec seulement 10% des données originales sur plusieurs benchmarks.
Lire la source
Ton avis ?
Reinforcement learningAlignementÉvaluations

Résumé généré par Claude — vérifié par l'humain