arXiv cs.CL·2 juin 2026

Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance

Signal

Hype

En 3 lignesTOPD (Trajectory-aware On-Policy Distillation) améliore l'apprentissage du raisonnement en LLM en utilisant des informations de trajectoire future pour identifier les vrais états divergents. Sur AIME24/25, TOPD atteint 63.3%/53.3% vs 60.0%/46.7% en OPD standard, montrant que 30% des tokens haute-perte sont des faux positifs.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance

Autres angles sur ce sujet