Reddit r/LocalLLaMA·29 mai 2026

How do I make MTP work in llama-server?

Signal

Hype

En 3 lignesUtilisateur teste MTP (Multi-Token Prediction) sur Qwen3.6-35B avec llama.cpp sur RTX 3090. Avec MTP activé (--spec-type draft-mtp), les performances diminuent : prefill passe de 1082 t/s à 878 t/s (N=1), génération de 116 t/s à 108 t/s. Taux d'acceptation des drafts faible (0.80 à 0.37). Demande comment améliorer.

Lire la source

Ton avis ?

Llama Génération de code Benchmarks Open source

Résumé généré par Claude — vérifié par l'humain

How do I make MTP work in llama-server?

Autres angles sur ce sujet