Reddit r/MachineLearning·4 juin 2026

On-policy distillation: one of the hottest terms on PapersWithCode [R]

Signal

Hype

En 3 lignesOn-policy distillation (OPD) est une technique post-training clé utilisée par Qwen 3.6/3.7, GLM-5.1 et DeepSeek-V4. La méthode utilise un modèle auxiliaire pour identifier les erreurs dans les trajectoires et injecter des tokens de correction, permettant au modèle principal d'apprendre sans régénérer de nouveaux rollouts.

Lire la source

Ton avis ?

Fine-tuning Reinforcement learning Qwen DeepSeek Raisonnement

Résumé généré par Claude — vérifié par l'humain

On-policy distillation: one of the hottest terms on PapersWithCode [R]

Autres angles sur ce sujet