Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance
Signal
78
Hype
15
En 3 lignesTOPD (Trajectory-aware On-Policy Distillation) améliore l'apprentissage du raisonnement en LLM en utilisant des informations de trajectoire future pour identifier les vrais états divergents. Sur AIME24/25, TOPD atteint 63.3%/53.3% vs 60.0%/46.7% en OPD standard, montrant que 30% des tokens haute-perte sont des faux positifs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain