Qift: Shift-Friendly No-Zero W2 Post-Training Quantization for Rotated W2A4/KV4 LLM Inference
Signal
72
Hype
18
En 3 lignesQift propose un nouvel ensemble de niveaux de quantification sans zéro pour W2A4/KV4 ({±0.5, ±1.5}) basé sur la rotation Hadamard. Sans entraînement ni codebook appris, cette méthode améliore la perplexité sur LLaMA-2-7B et LLaMA-3.1-8B comparée aux niveaux standards {-2,-1,0,+1}, tout en réduisant l'écart avec W3A4 en précision mixte.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain