Retour au feed
Reddit r/MachineLearning·

On-policy distillation: one of the hottest terms on PapersWithCode [R]

Signal
72
Hype
35
En 3 lignesOn-policy distillation (OPD) est une technique post-training clé utilisée par Qwen 3.6/3.7, GLM-5.1 et DeepSeek-V4. La méthode utilise un modèle auxiliaire pour identifier les erreurs dans les trajectoires et injecter des tokens de correction, permettant au modèle principal d'apprendre sans régénérer de nouveaux rollouts.
Lire la source
Ton avis ?
Fine-tuningReinforcement learningQwenDeepSeekRaisonnement

Résumé généré par Claude — vérifié par l'humain