HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models
Signal
78
Hype
15
En 3 lignesHELLoRA applique des modules LoRA uniquement aux experts les plus activés à chaque couche des modèles Mixture-of-Experts, réduisant les paramètres entraînables de 84% sur OlMoE et améliorant la précision de 9.2%. Testé sur OlMoE-1B-7B, Mixtral-8x7B et DeepSeekMoE sur raisonnement mathématique, génération de code et alignement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain