RTX 5080 16GB: Qwen3.6 35B MoE at 128k context — 56 tok/s, and why MTP doesn't help
Signal
78
Hype
15
En 3 lignesBenchmark RTX 5080 16GB avec Qwen3.6 35B MoE à 128k contexte : 56 tok/s sans MTP, 74 tok/s avec MTP mais plus lent globalement. MTP force un buffer de 1.5GB qui déporte 3 couches experts GPU→CPU, créant un goulot d'étranglement. Le 27B IQ3 atteint 73 tok/s et tient entièrement en GPU.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain