Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation
Signal
82
Hype
15
En 3 lignesÉtude unifiée de la distillation de LLM montrant que SFT, DAgger, offline RL et OPD découplent deux axes orthogonaux : source de préfixe et direction KL au niveau token. Les auteurs proposent KL mixing et curriculum de longueur avec gate entropie, améliorant Pass@k de 5.8 points et réduisant la longueur moyenne de 3x sur le raisonnement mathématique.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain