InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization
Signal
82
Hype
15
En 3 lignesInfoQuant propose une méthode de quantification post-entraînement (PTQ) sans entraînement pour les LLM. Elle utilise Peak Suppression Orthogonal Transformation (PSOT) pour transformer les activations en distributions plus faciles à quantifier. Sur LLaMA-2 13B en W4A4KV4, elle préserve 97% de la précision et réduit l'écart de performance de 42% par rapport à l'état de l'art.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain