arXiv cs.LG·20 mai 2026

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

Signal

Hype

En 3 lignesHELLoRA applique des modules LoRA uniquement aux experts les plus activés à chaque couche des modèles Mixture-of-Experts, réduisant les paramètres entraînables de 84% sur OlMoE et améliorant la précision de 9.2%. Testé sur OlMoE-1B-7B, Mixtral-8x7B et DeepSeekMoE sur raisonnement mathématique, génération de code et alignement.

Lire la source

Ton avis ?

Fine-tuning Benchmarks

Résumé généré par Claude — vérifié par l'humain

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

Autres angles sur ce sujet