arXiv cs.CL·19 mai 2026

Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch

Signal

Hype

En 3 lignesNouvelle méthode DSKD-CMA-GA pour la distillation de connaissance entre LLMs avec vocabulaires différents. Utilise l'apprentissage adversarial pour aligner les distributions clé-requête. Gains ROUGE-L modestes mais constants (+0.37 en moyenne sur données hors-distribution).

Lire la source

Ton avis ?

Fine-tuning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch

Autres angles sur ce sujet