Reddit r/LocalLLaMA·31 mai 2026

Experiment : MTP models just as t/s efficient as non MTP models?

Signal

Hype

En 3 lignesExpérience comparative sur GPU 9070XT : Qwen 35B A3B MTP atteint 43.74 T/s vs 38.07 T/s en mode standard. MTP démontre un gain de ~15% en throughput malgré la surcharge computationnelle du processus multi-token. Tests identiques (prompt, contexte 8192, quantization Q4_K_XL).

Lire la source

Ton avis ?

Qwen Benchmarks Génération de code Open source

Résumé généré par Claude — vérifié par l'humain

Experiment : MTP models just as t/s efficient as non MTP models?

Autres angles sur ce sujet