Retour au feed
Reddit r/LocalLLaMA·

I'm seeing low draft acceptance when using Qwen3.x MTP, what am I doing wrong?

Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une faible acceptation de drafts (40-60%) avec Qwen3.5-122B et Qwen3.6-27B en speculative decoding via llama.cpp, contre ~80% attendus. Configuration détaillée fournie avec MTP draft, quantization Q6_K_L, batch 2048.
Lire la source
Ton avis ?
QwenOpen sourceOutilsGénération de code

Résumé généré par Claude — vérifié par l'humain