Reddit r/LocalLLaMA·25 mai 2026

llama.cpp has a clever trick for speeding up KV cache decode

Signal

Hype

En 3 lignesllama.cpp propose une option de cache KV qui réenvoie les tokens générés au cache plutôt que d'attendre la prochaine requête, améliorant la réactivité. L'utilisateur rapporte une réduction du temps de traitement de 5-30s à quasi-instantané sur Qwen 3.6-35B avec RX 7900 XTX (~100 tps).

Lire la source

Ton avis ?

Llama Génération de code Infrastructure

Résumé généré par Claude — vérifié par l'humain

llama.cpp has a clever trick for speeding up KV cache decode

Autres angles sur ce sujet