GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs
Signal
78
Hype
15
En 3 lignesGEMQ propose une quantification mixte au niveau expert pour les modèles MoE-LLM. La méthode utilise une formulation de programmation linéaire globale pour estimer l'importance des experts et affine le routeur pour adapter le routage aux experts quantifiés. Résultats : réduction mémoire et accélération inférence avec dégradation minimale.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain