Reddit r/LocalLLaMA·10 juin 2026

Qwen3.6-MTP-27B on Tesla V100 @ 55 TPS (llama.cpp) — Any way to push this higher without quality loss?

Signal

Hype

En 3 lignesUtilisateur exécute Qwen3.6-MTP-27B-Q4_K_M sur Tesla V100 avec llama.cpp et obtient 55 TPS (tokens/sec). Cherche à optimiser le débit sans perte de qualité via ajustements de configuration (parallel, spec-draft-n-max, KV cache quantization). Questionne si la taille de contexte 262144 impacte les performances.

Lire la source

Ton avis ?

Qwen Génération de code Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

Qwen3.6-MTP-27B on Tesla V100 @ 55 TPS (llama.cpp) — Any way to push this higher without quality loss?

Autres angles sur ce sujet