Mixture of Experts for Low-Resource LLMs
Signal
78
Hype
15
En 3 lignesÉtude des dynamiques de routage dans deux architectures MoE (Qwen3-30B-A3B et Nemotron-3-Nano-30B-A3B) révélant un effondrement du routage en couches profondes pour les langues sous-représentées (hébreu, japonais). L'entraînement continu bilingue corrige cet déséquilibre mieux que le fine-tuning supervisé seul.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain