arXiv cs.LG·25 mai 2026

GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs

Signal

Hype

En 3 lignesGEMQ propose une quantification mixte au niveau expert pour les modèles MoE-LLM. La méthode utilise une formulation de programmation linéaire globale pour estimer l'importance des experts et affine le routeur pour adapter le routage aux experts quantifiés. Résultats : réduction mémoire et accélération inférence avec dégradation minimale.

Lire la source

Ton avis ?

Résumé généré par Claude — vérifié par l'humain