arXiv cs.LG·29 mai 2026

OISD: On-Policy Internal Self-Distillation of Language Models

Signal

Hype

En 3 lignesOISD introduit l'auto-distillation interne on-policy pour améliorer le raisonnement des modèles de langage. La dernière couche agit comme enseignant détaché pour les couches intermédiaires via alignement logit (comportements de raisonnement) et alignement attention (patterns d'attention), sans information externe. Résultats positifs sur quatre tâches de raisonnement mathématique.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

OISD: On-Policy Internal Self-Distillation of Language Models

Autres angles sur ce sujet