arXiv cs.CL·19 mai 2026

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

Signal

Hype

En 3 lignesMixSD est une méthode de fine-tuning sans modèle externe qui injecte des connaissances en mélangeant dynamiquement les tokens du modèle lui-même : une branche « expert » observant le fait à injecter, une branche « naïve » reflétant les priors originaux. Sur benchmarks de QA et d'édition de connaissances, MixSD retient jusqu'à 100% des capacités du modèle de base contre 1% pour SFT standard.

Lire la source

Ton avis ?

Fine-tuning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

Autres angles sur ce sujet