Retour au feed
Reddit r/LocalLLaMA·

PSA: You may not need to quantize spec draft when using MTP

Signal
65
Hype
15
En 3 lignesQuantifier le spec draft dans llama.cpp avec MTP réduit la taille de contexte disponible. Avec q4_0, le contexte passe de 91648 tokens (fp16 par défaut) à 83200 tokens. Le développeur am17an a confirmé ce comportement contre-intuitif.
Lire la source
Ton avis ?
Open sourceOutils

Résumé généré par Claude — vérifié par l'humain