Retour au feed
arXiv cs.LG·

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

Signal
72
Hype
18
En 3 lignesFiRe-OPD propose une distillation on-policy (OPD) à granularité fine combinant filtrage de trajectoires et repondération douce de tokens. Validé sur AIME 2024 (+6.25 en strong-to-weak) et Miner (+18.81 en multi-teacher), la méthode surpasse les approches token-level récentes en stabilité et performance.
Lire la source
Ton avis ?
Reinforcement learningFine-tuningPapers

Résumé généré par Claude — vérifié par l'humain