Retour au feed
Reddit r/LocalLLaMA·

Experiment : MTP models just as t/s efficient as non MTP models?

Signal
62
Hype
25
En 3 lignesExpérience comparative sur GPU 9070XT : Qwen 35B A3B MTP atteint 43.74 T/s vs 38.07 T/s en mode standard. MTP démontre un gain de ~15% en throughput malgré la surcharge computationnelle du processus multi-token. Tests identiques (prompt, contexte 8192, quantization Q4_K_XL).
Lire la source
Ton avis ?
QwenBenchmarksGénération de codeOpen source

Résumé généré par Claude — vérifié par l'humain