Retour au feed
Reddit r/LocalLLaMA·

Qwen3.6 27B Pure Quant: 40 tok/s on 16 GB VRAM

Signal
72
Hype
25
En 3 lignesQwen3.6 27B quantifié en Q4_K_M tient en 16 GB VRAM (15.4 GB MTP, 15.1 GB non-MTP). Version MTP atteint 40 tok/s en génération, non-MTP 24 tok/s. GGUF disponible sur HuggingFace avec llama.cpp.
Lire la source
Ton avis ?
QwenOpen sourceOutilsFine-tuning

Résumé généré par Claude — vérifié par l'humain