Reddit r/LocalLLaMA·28 mai 2026

Question: Llama cpp, whats good right now for: MTP, KV cache quant, Long context.

Signal

Hype

En 3 lignesDiscussion sur les optimisations llama.cpp pour contexte long : comparaison entre MTP (Multi-Token Prediction), quantification KV cache et performances. Utilisateur rapporte 60 tokens/s avec contexte long sur 3090, dégradation à 20 tokens/s lors du remplissage. Qwen 27B Q4 testé.

Lire la source

Ton avis ?

Llama Open source Infrastructure Génération de code

Résumé généré par Claude — vérifié par l'humain

Question: Llama cpp, whats good right now for: MTP, KV cache quant, Long context.

Autres angles sur ce sujet