Retour au feed
Reddit r/LocalLLaMA·

Qwen3.6-35B-A3B-APEX / 128K ctx on RTX 3060 12GB — 37 t/s gen with 72k ctx filled, PPL 3.25, offloading 17GB model

Signal
75
Hype
25
En 3 lignesQwen3.6-35B-A3B-APEX quantifié par mudler atteint 37 t/s en génération avec 72K contexte rempli sur RTX 3060 12GB via offloading 17.3GB. Optimisations CUDA de spiritbuun (fused MMA, TurboQuant, fattn) + quantization I-Compact APEX donnent PPL 3.25. Contexte 128K supporté, dégradation à 28 t/s @129K.
Lire la source
Ton avis ?
QwenGénération de codeOpen source

Résumé généré par Claude — vérifié par l'humain