Retour au feed
Reddit r/LocalLLaMA·

Question: Llama cpp, whats good right now for: MTP, KV cache quant, Long context.

Signal
35
Hype
15
En 3 lignesDiscussion sur les optimisations llama.cpp pour contexte long : comparaison entre MTP (Multi-Token Prediction), quantification KV cache et performances. Utilisateur rapporte 60 tokens/s avec contexte long sur 3090, dégradation à 20 tokens/s lors du remplissage. Qwen 27B Q4 testé.
Lire la source
Ton avis ?
LlamaOpen sourceInfrastructureGénération de code

Résumé généré par Claude — vérifié par l'humain