Retour au feed
arXiv cs.LG·

Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning

Signal
72
Hype
18
En 3 lignesSC-SDPO améliore l'auto-distillation des LLM en pondérant les pertes par √[p(1-p)], créant un curriculum implicite. Tests sur Qwen3-8B (+3.2/+4.3 mean@16/maj@16) et OLMo-3-7B (+1.8/+3.0) montrent gains stables sans coût computationnel supplémentaire.
Lire la source
Ton avis ?
RaisonnementReinforcement learningPapers

Résumé généré par Claude — vérifié par l'humain