arXiv cs.LG·4 juin 2026

Self-Distilled Policy Gradient

Signal

Hype

En 3 lignesSDPG combine l'auto-distillation de politique avec des avantages de vérificateur relatifs au groupe et une régularisation KL. La méthode utilise une divergence KL inverse sur vocabulaire complet pour superviser les générations d'un modèle de langage. Code disponible sur GitHub.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Self-Distilled Policy Gradient

Autres angles sur ce sujet