Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning
Signal
72
Hype
18
En 3 lignesSC-SDPO améliore l'auto-distillation des LLM en pondérant les pertes par √[p(1-p)], créant un curriculum implicite. Tests sur Qwen3-8B (+3.2/+4.3 mean@16/maj@16) et OLMo-3-7B (+1.8/+3.0) montrent gains stables sans coût computationnel supplémentaire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain