Reddit r/LocalLLaMA·20 mai 2026

RTX 5080 16GB: Qwen3.6 35B MoE at 128k context — 56 tok/s, and why MTP doesn't help

Signal

Hype

En 3 lignesBenchmark RTX 5080 16GB avec Qwen3.6 35B MoE à 128k contexte : 56 tok/s sans MTP, 74 tok/s avec MTP mais plus lent globalement. MTP force un buffer de 1.5GB qui déporte 3 couches experts GPU→CPU, créant un goulot d'étranglement. Le 27B IQ3 atteint 73 tok/s et tient entièrement en GPU.

Lire la source

Ton avis ?

Qwen Benchmarks Open source Infrastructure

Résumé généré par Claude — vérifié par l'humain

RTX 5080 16GB: Qwen3.6 35B MoE at 128k context — 56 tok/s, and why MTP doesn't help

Autres angles sur ce sujet