Rethinking the Role of Temperature in Large Language Model Distillation
Signal
72
Hype
18
En 3 lignesÉtude arXiv sur le rôle de la température dans la distillation de LLM. Les auteurs montrent que la divergence KL avant (FKL) surpasse la divergence KL inverse (RKL) à températures élevées, contrairement aux conclusions empiriques antérieures qui omettaient ce paramètre. La température enrichit FKL avec des signaux de tokens non-dominants tandis qu'elle rescale seulement les gradients RKL.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain