Reddit r/LocalLLaMA·6 juin 2026

Qwen 3.6 27B MTP - Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization

Signal

Hype

En 3 lignesUtilisateur signale une dégradation de performance avec Qwen 3.6 27B : l'activation de spec-type draft-mtp et spec-draft-n-max réduit le débit de 70 t/s à 30 t/s et la consommation GPU de 475W à 300W, malgré un taux d'acceptation >50%. Problème apparu après mise à jour récente de llama.cpp.

Lire la source

Ton avis ?

Qwen Open source Génération de code Infrastructure

Résumé généré par Claude — vérifié par l'humain

Qwen 3.6 27B MTP - Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization

Autres angles sur ce sujet