Retour au feed
Reddit r/LocalLLaMA·

Interesting paper advocates for quantized prefilling and precise decoding

Signal
72
Hype
18
En 3 lignesUn paper propose Mix-Quant : utiliser W4A4 quantisé pour le prefilling (gain théorique 4x) mais conserver la haute précision pour le decoding. Le prefilling tolère les erreurs de quantization car elles ne s'accumulent pas, contrairement au decoding autorégressif où chaque token affecte la génération suivante.
Lire la source
Ton avis ?
Benchmarks

Résumé généré par Claude — vérifié par l'humain