Interesting paper advocates for quantized prefilling and precise decoding
Signal
72
Hype
18
En 3 lignesUn paper propose Mix-Quant : utiliser W4A4 quantisé pour le prefilling (gain théorique 4x) mais conserver la haute précision pour le decoding. Le prefilling tolère les erreurs de quantization car elles ne s'accumulent pas, contrairement au decoding autorégressif où chaque token affecte la génération suivante.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain