Retour au feed
arXiv cs.LG·

Rethinking the Role of Temperature in Large Language Model Distillation

Signal
72
Hype
18
En 3 lignesÉtude arXiv sur le rôle de la température dans la distillation de LLM. Les auteurs montrent que la divergence KL avant (FKL) surpasse la divergence KL inverse (RKL) à températures élevées, contrairement aux conclusions empiriques antérieures qui omettaient ce paramètre. La température enrichit FKL avec des signaux de tokens non-dominants tandis qu'elle rescale seulement les gradients RKL.
Lire la source
Ton avis ?
Fine-tuningPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain