When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning
Signal
78
Hype
15
En 3 lignesLes auteurs identifient que la fiabilité des tokens du teacher en auto-distillation dépend de leur position dans la trajectoire de raisonnement, pas de l'entropie locale. Ils proposent PW-OPSD, qui pondère les tokens par position croissante. Sur Qwen3-4B, AIME 2024/2025 gagnent +1.0/+1.1 points; validation sur DeepSeek-R1-Distill-Llama-8B et Olmo-3-7B-Think confirme les gains.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain