Post-Trained MoE Can Skip Half Experts via Self-Distillation
Signal
78
Hype
15
En 3 lignesZEDA, une méthode de self-distillation, convertit les modèles MoE post-entraînés en variantes dynamiques. Sur Qwen3-30B-A3B et GLM-4.7-Flash, elle réduit 50% des FLOPs experts avec perte de précision marginale et atteint 1.20× d'accélération d'inférence.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain