Retour au feed
arXiv cs.LG·

QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling

Signal
78
Hype
15
En 3 lignesQAM-W est un codec de quantification 2D pour poids de LLM qui utilise rotation Hadamard et mise à l'échelle consciente de l'activation. Sur 5 modèles (1.1B–13B), la variante activation-aware à ~5.5 bpw maintient ±0.4% de perplexité BF16, égalant SmoothQuant W8A8 avec 32% moins de bits. Le codage 2D surpasse le codage polaire de 2–15 pp.
Lire la source
Ton avis ?
Fine-tuningBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain