arXiv cs.CL·19 mai 2026

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

Signal

Hype

En 3 lignesSPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800, en utilisant une formulation de récompense contrainte par KL et une pipeline de correction d'erreurs minimales.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Fine-tuning Qwen

Résumé généré par Claude — vérifié par l'humain

Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention

Autres angles sur ce sujet