Here are my KV cache quantization benchmarks: TurboQuant is overrated but saved by TCQ, q5 deserves more attention, and symmetric q8 might be a waste of VRAM
Signal
72
Hype
28
En 3 lignesBenchmark KV cache quantization sur RTX 3090 avec Qwen 27B : TurboQuant surcoté sauf TCQ (meilleur à 2-3 bits), q5 sous-estimé, q4_0 asymétrique surpasse q4_1 symétrique. KLD expose les défauts que PPL cache, rotation llama.cpp égale turbo4.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain