Qwen3.6-MTP-27B on Tesla V100 @ 55 TPS (llama.cpp) — Any way to push this higher without quality loss?
Signal
35
Hype
15
En 3 lignesUtilisateur exécute Qwen3.6-MTP-27B-Q4_K_M sur Tesla V100 avec llama.cpp et obtient 55 TPS (tokens/sec). Cherche à optimiser le débit sans perte de qualité via ajustements de configuration (parallel, spec-draft-n-max, KV cache quantization). Questionne si la taille de contexte 262144 impacte les performances.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain