arXiv cs.LG·3 juin 2026

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

Signal

Hype

En 3 lignesFiRe-OPD propose une distillation on-policy (OPD) à granularité fine combinant filtrage de trajectoires et repondération douce de tokens. Validé sur AIME 2024 (+6.25 en strong-to-weak) et Miner (+18.81 en multi-teacher), la méthode surpasse les approches token-level récentes en stabilité et performance.

Lire la source

Ton avis ?

Reinforcement learning Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

Autres angles sur ce sujet