Retour au feed
arXiv cs.LG·

OISD: On-Policy Internal Self-Distillation of Language Models

Signal
78
Hype
15
En 3 lignesOISD introduit l'auto-distillation interne on-policy pour améliorer le raisonnement des modèles de langage. La dernière couche agit comme enseignant détaché pour les couches intermédiaires via alignement logit (comportements de raisonnement) et alignement attention (patterns d'attention), sans information externe. Résultats positifs sur quatre tâches de raisonnement mathématique.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain