[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo
Signal
65
Hype
25
En 3 lignesllama.cpp supporte les caches KV asymétriques (q8/q4) mais génère actuellement du traitement CPU au lieu de GPU avec CUDA pour certaines combinaisons. Une évaluation utilisateur montre que q8_0/q4_0 coûte seulement 1,3% de précision tout en réduisant la mémoire de plus de 50% vs f16/f16.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain