Qwen 3.6 27B MTP - Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization
Signal
45
Hype
15
En 3 lignesUtilisateur signale une dégradation de performance avec Qwen 3.6 27B : l'activation de spec-type draft-mtp et spec-draft-n-max réduit le débit de 70 t/s à 30 t/s et la consommation GPU de 475W à 300W, malgré un taux d'acceptation >50%. Problème apparu après mise à jour récente de llama.cpp.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain