arXiv cs.AI·19 mai 2026

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

Signal

Hype

En 3 lignesNouvelle stratégie de sélection de données pour l'alignement LLM basée sur l'écart de récompense implicite DPO. La méthode sélectionne les exemples les plus difficiles (petit écart de récompense) et atteint des performances supérieures avec seulement 10% des données originales sur plusieurs benchmarks.

Lire la source

Ton avis ?

Reinforcement learning Alignement Évaluations

Résumé généré par Claude — vérifié par l'humain

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap

Autres angles sur ce sujet