Retour au feed
arXiv cs.AI·

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

Signal
82
Hype
25
En 3 lignesUne étude arXiv démontre que les modèles Mixture-of-Experts (MoE) surpassent les architectures denses sous contraintes de ressources strictement égales (paramètres totaux, compute d'entraînement, données identiques). Les chercheurs identifient une région d'activation optimale cohérente entre tailles de modèles. Validation sur ~200 modèles 2B et 50 modèles 7B (50 trillions de tokens).
Lire la source
Ton avis ?
BenchmarksPapersRaisonnement

Résumé généré par Claude — vérifié par l'humain