Retour au feed
arXiv cs.CL·

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

Signal
78
Hype
15
En 3 lignesMixSD est une méthode de fine-tuning sans modèle externe qui injecte des connaissances en mélangeant dynamiquement les tokens du modèle lui-même : une branche « expert » observant le fait à injecter, une branche « naïve » reflétant les priors originaux. Sur benchmarks de QA et d'édition de connaissances, MixSD retient jusqu'à 100% des capacités du modèle de base contre 1% pour SFT standard.
Lire la source
Ton avis ?
Fine-tuningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain