arXiv cs.CL·19 mai 2026

Post-Trained MoE Can Skip Half Experts via Self-Distillation

Signal

Hype

En 3 lignesZEDA transforme des modèles MoE statiques post-entraînés en variantes dynamiques via auto-distillation. Sur Qwen3-30B-A3B et GLM-4.7-Flash, la méthode élimine 50% des FLOPs experts avec perte de précision mineure et atteint 1.20× d'accélération d'inférence.

Lire la source

Ton avis ?

Qwen Fine-tuning Infrastructure

Résumé généré par Claude — vérifié par l'humain

Post-Trained MoE Can Skip Half Experts via Self-Distillation

Autres angles sur ce sujet