Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap
Signal
78
Hype
25
En 3 lignesNouvelle stratégie de sélection de données pour l'alignement LLM basée sur l'écart de récompense implicite DPO. En ciblant les exemples de préférence les plus difficiles (petit écart), la méthode atteint des performances supérieures avec seulement 10% des données originales sur plusieurs benchmarks.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain