arXiv cs.AI·19 mai 2026

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

Signal

Hype

En 3 lignesÉtude systématique de la compression de modèles MoE (Qwen3-Next-80A3B → 23A2B) via pruning et distillation à l'échelle du préentraînement. Le pruning surpasse l'entraînement from-scratch, la distillation multi-token (MTP) améliore les performances, et les schedules progressifs battent la compression one-shot.

Lire la source

Ton avis ?

Qwen Fine-tuning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training

Autres angles sur ce sujet