arXiv cs.LG·28 mai 2026

Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning

Signal

Hype

En 3 lignesSC-SDPO améliore l'auto-distillation des LLM en pondérant les pertes par √[p(1-p)], créant un curriculum implicite. Tests sur Qwen3-8B (+3.2/+4.3 mean@16/maj@16) et OLMo-3-7B (+1.8/+3.0) montrent gains stables sans coût computationnel supplémentaire.

Lire la source

Ton avis ?

Raisonnement Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning

Autres angles sur ce sujet