Question: Llama cpp, whats good right now for: MTP, KV cache quant, Long context.
Signal
35
Hype
15
En 3 lignesDiscussion sur les optimisations llama.cpp pour contexte long : comparaison entre MTP (Multi-Token Prediction), quantification KV cache et performances. Utilisateur rapporte 60 tokens/s avec contexte long sur 3090, dégradation à 20 tokens/s lors du remplissage. Qwen 27B Q4 testé.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain