Retour au feed
arXiv cs.CL·

Post-Trained MoE Can Skip Half Experts via Self-Distillation

Signal
78
Hype
15
En 3 lignesZEDA transforme des modèles MoE statiques post-entraînés en variantes dynamiques via auto-distillation. Sur Qwen3-30B-A3B et GLM-4.7-Flash, la méthode élimine 50% des FLOPs experts avec perte de précision mineure et atteint 1.20× d'accélération d'inférence.
Lire la source
Ton avis ?
QwenFine-tuningInfrastructure

Résumé généré par Claude — vérifié par l'humain