Reddit r/LocalLLaMA·23 mai 2026

Qwen3.6 35B-A3B MTP hits 249 t/s on a 24GB consumer GPU (RTX 5090M) — 3.4× the dense 27B variant on the same image

Signal

Hype

En 3 lignesQwen3.6 35B-A3B MTP atteint 249 t/s sur RTX 5090M (24GB), 3.4× plus rapide que la variante dense 27B. Le modèle MoE (128 experts, ~3B params actifs par token) combiné à MTP (86.6% d'acceptation draft) explique le gain. Contexte jusqu'à 262K tokens sans dégradation significative.

Lire la source

Ton avis ?

Qwen Génération de code Benchmarks Open source Infrastructure

Résumé généré par Claude — vérifié par l'humain

Qwen3.6 35B-A3B MTP hits 249 t/s on a 24GB consumer GPU (RTX 5090M) — 3.4× the dense 27B variant on the same image

Autres angles sur ce sujet