Retour au feed
Reddit r/LocalLLaMA·

Qwen 3.6 27B MTP - Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization

Signal
45
Hype
15
En 3 lignesUtilisateur signale une dégradation de performance avec Qwen 3.6 27B : l'activation de spec-type draft-mtp et spec-draft-n-max réduit le débit de 70 t/s à 30 t/s et la consommation GPU de 475W à 300W, malgré un taux d'acceptation >50%. Problème apparu après mise à jour récente de llama.cpp.
Lire la source
Ton avis ?
QwenOpen sourceGénération de codeInfrastructure

Résumé généré par Claude — vérifié par l'humain