Self-Distilled Policy Gradient
Signal
72
Hype
18
En 3 lignesSDPG combine l'auto-distillation de politique avec des avantages de vérificateur relatifs au groupe et une régularisation KL. La méthode utilise une divergence KL inverse sur vocabulaire complet pour superviser les générations d'un modèle de langage. Code disponible sur GitHub.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain