Retour au feed
Reddit r/LocalLLaMA·

Qwen3.6:27B VRAM 16GB 5080: MTP Quant, Speeds, and Configs

Signal
65
Hype
15
En 3 lignesUtilisateur partage sa configuration Qwen3.6-27B-Q3_K_S sur 16GB VRAM avec RTX 5080. Atteint 47-61 tokens/s en génération et 1095-1426 tokens/s en évaluation de prompt. Utilise quantization Q3_K_S, 64 couches GPU, spéculative decoding MTP avec draft acceptance rate 0.59-0.80.
Lire la source
Ton avis ?
QwenGénération de codeFine-tuningInfrastructure

Résumé généré par Claude — vérifié par l'humain