Qwen3.6 35B-A3B MTP hits 249 t/s on a 24GB consumer GPU (RTX 5090M) — 3.4× the dense 27B variant on the same image
Signal
82
Hype
15
En 3 lignesQwen3.6 35B-A3B MTP atteint 249 t/s sur RTX 5090M (24GB), 3.4× plus rapide que la variante dense 27B. Le modèle MoE (128 experts, ~3B params actifs par token) combiné à MTP (86.6% d'acceptation draft) explique le gain. Contexte jusqu'à 262K tokens sans dégradation significative.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain