Experiment : MTP models just as t/s efficient as non MTP models?
Signal
62
Hype
25
En 3 lignesExpérience comparative sur GPU 9070XT : Qwen 35B A3B MTP atteint 43.74 T/s vs 38.07 T/s en mode standard. MTP démontre un gain de ~15% en throughput malgré la surcharge computationnelle du processus multi-token. Tests identiques (prompt, contexte 8192, quantization Q4_K_XL).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain