Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch
Signal
72
Hype
18
En 3 lignesNouvelle méthode DSKD-CMA-GA pour la distillation de connaissance entre LLMs avec vocabulaires différents. Utilise l'apprentissage adversarial pour aligner les distributions clé-requête. Gains ROUGE-L modestes mais constants (+0.37 en moyenne sur données hors-distribution).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain