Retour au feed
Reddit r/LocalLLaMA·

llama.cpp has a clever trick for speeding up KV cache decode

Signal
65
Hype
25
En 3 lignesllama.cpp propose une option de cache KV qui réenvoie les tokens générés au cache plutôt que d'attendre la prochaine requête, améliorant la réactivité. L'utilisateur rapporte une réduction du temps de traitement de 5-30s à quasi-instantané sur Qwen 3.6-35B avec RX 7900 XTX (~100 tps).
Lire la source
Ton avis ?
LlamaGénération de codeInfrastructure

Résumé généré par Claude — vérifié par l'humain