PSA: You may not need to quantize spec draft when using MTP
Signal
65
Hype
15
En 3 lignesQuantifier le spec draft dans llama.cpp avec MTP réduit la taille de contexte disponible. Avec q4_0, le contexte passe de 91648 tokens (fp16 par défaut) à 83200 tokens. Le développeur am17an a confirmé ce comportement contre-intuitif.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain