Reddit r/LocalLLaMA·22 mai 2026

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Signal

Hype

En 3 lignesllama.cpp supporte les caches KV asymétriques (q8/q4) mais génère actuellement du traitement CPU au lieu de GPU avec CUDA pour certaines combinaisons. Une évaluation utilisateur montre que q8_0/q4_0 coûte seulement 1,3% de précision tout en réduisant la mémoire de plus de 50% vs f16/f16.

Lire la source

Ton avis ?

Llama Open source Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Autres angles sur ce sujet