Retour au feed
arXiv cs.LG·

Self-Distilled Policy Gradient

Signal
72
Hype
18
En 3 lignesSDPG combine l'auto-distillation de politique avec des avantages de vérificateur relatifs au groupe et une régularisation KL. La méthode utilise une divergence KL inverse sur vocabulaire complet pour superviser les générations d'un modèle de langage. Code disponible sur GitHub.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain