Retour au feed
Reddit r/LocalLLaMA·

How do I make MTP work in llama-server?

Signal
35
Hype
15
En 3 lignesUtilisateur teste MTP (Multi-Token Prediction) sur Qwen3.6-35B avec llama.cpp sur RTX 3090. Avec MTP activé (--spec-type draft-mtp), les performances diminuent : prefill passe de 1082 t/s à 878 t/s (N=1), génération de 116 t/s à 108 t/s. Taux d'acceptation des drafts faible (0.80 à 0.37). Demande comment améliorer.
Lire la source
Ton avis ?
LlamaGénération de codeBenchmarksOpen source

Résumé généré par Claude — vérifié par l'humain