QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling
Signal
78
Hype
15
En 3 lignesQAM-W est un codec de quantification 2D pour poids de LLM qui utilise rotation Hadamard et mise à l'échelle consciente de l'activation. Sur 5 modèles (1.1B–13B), la variante activation-aware à ~5.5 bpw maintient ±0.4% de perplexité BF16, égalant SmoothQuant W8A8 avec 32% moins de bits. Le codage 2D surpasse le codage polaire de 2–15 pp.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain