MixSD: Mixed Contextual Self-Distillation for Knowledge Injection
Signal
78
Hype
15
En 3 lignesMixSD est une méthode de fine-tuning sans modèle externe qui injecte des connaissances en mélangeant dynamiquement les tokens du modèle lui-même : une branche « expert » observant le fait à injecter, une branche « naïve » reflétant les priors originaux. Sur benchmarks de QA et d'édition de connaissances, MixSD retient jusqu'à 100% des capacités du modèle de base contre 1% pour SFT standard.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain