Retour au feed
arXiv cs.CL·

Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch

Signal
72
Hype
18
En 3 lignesNouvelle méthode DSKD-CMA-GA pour la distillation de connaissance entre LLMs avec vocabulaires différents. Utilise l'apprentissage adversarial pour aligner les distributions clé-requête. Gains ROUGE-L modestes mais constants (+0.37 en moyenne sur données hors-distribution).
Lire la source
Ton avis ?
Fine-tuningBenchmarks

Résumé généré par Claude — vérifié par l'humain