Retour au feed
Reddit r/LocalLLaMA·

Single 3090 with Q4 Qwen 27B, context dropped from 137k to 14k with MTP enabled. Is it normal?

Signal
35
Hype
15
En 3 lignesUtilisateur rapporte une chute drastique de la taille de contexte (137k → 14k) en activant MTP (Multi-Token Prediction) avec speculative decoding sur Qwen 27B Q4 dans llama.cpp. Demande si ce comportement est normal.
Lire la source
Ton avis ?
QwenGénération de codeOpen sourceRaisonnement

Résumé généré par Claude — vérifié par l'humain