Retour au feed
arXiv cs.LG·

X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation

Signal
78
Hype
15
En 3 lignesX-Token propose une distillation de connaissance cross-tokenizer via deux formulations de perte complémentaires (P-KL et H-KL) utilisant une matrice de projection W. Sur Llama-3.2-1B, la méthode surpasse GOLD de +3.82 points avec Qwen3-4B et +0.5 avec Phi-4-Mini; deux enseignants (Phi-4-mini + Llama-3B) gagnent +1.3 points.
Lire la source
Ton avis ?
Fine-tuningBenchmarksLlamaQwen

Résumé généré par Claude — vérifié par l'humain