Retour au feed
arXiv cs.CL·

Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance

Signal
78
Hype
15
En 3 lignesTOPD (Trajectory-aware On-Policy Distillation) améliore l'apprentissage du raisonnement en LLM en utilisant des informations de trajectoire future pour identifier les vrais états divergents. Sur AIME24/25, TOPD atteint 63.3%/53.3% vs 60.0%/46.7% en OPD standard, montrant que 30% des tokens haute-perte sont des faux positifs.
Lire la source
Ton avis ?
RaisonnementReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain