Retour au feed
arXiv cs.AI·

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

Signal
75
Hype
25
En 3 lignesNouvelle stratégie de sélection de données pour l'alignement LLM basée sur l'écart de récompense implicite DPO. La méthode sélectionne les exemples les plus difficiles (petit écart de récompense) et atteint des performances supérieures avec seulement 10% des données originales sur plusieurs benchmarks.
Lire la source
Ton avis ?
Reinforcement learningAlignementÉvaluations

Résumé généré par Claude — vérifié par l'humain