Retour au feed
Reddit r/LocalLLaMA·

MTP has no impact on my Qwen3.6 MoE performance

Signal
35
Hype
15
En 3 lignesUtilisateur rapporte que MTP (Multi-Token Prediction) n'améliore pas les performances de Qwen3.6-35B GGUF sur RTX 5060Ti : ~60 tok/s dans les deux cas. Teste avec flags unsloth (spec-type draft-mtp, spec-draft-n-max 2) mais observe aucun speedup malgré réductions ctx-size et quantization.
Lire la source
Ton avis ?
QwenOpen sourceOutils

Résumé généré par Claude — vérifié par l'humain