Retour au feed
arXiv cs.CL·

A Data-Efficient Path to Multilingual LLMs: Language Expansion via Post-training PARAM$\Delta$ Integration into Upcycled MoE

Signal
75
Hype
25
En 3 lignesMéthode pour étendre les LLM à de nouvelles langues sans phase d'alignement coûteuse. Convertit un modèle dense en architecture Mixture-of-Experts avec experts dédiés par langue, puis transfère les capacités d'alignement via fusion de deltas post-training. Améliore les performances sur les nouvelles langues tout en préservant les capacités originales.
Lire la source
Ton avis ?
Fine-tuning

Résumé généré par Claude — vérifié par l'humain