Surgical Post-Training: Proximal On-Policy Distillation for Reasoning with Knowledge Retention
Signal
78
Hype
25
En 3 lignesSPOT (Surgical Post-Training) est un framework de distillation on-policy qui injecte des capacités de raisonnement dans les LLM tout en préservant les connaissances antérieures. Avec 4k paires mathématiques rectifiées, il améliore Qwen3-8B de 6,2% en moyenne en 16 minutes sur 8x H800, en utilisant une formulation de récompense contrainte par KL et une pipeline de correction d'erreurs minimales.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain