Reddit r/LocalLLaMA·28 mai 2026

Qwen3.6-35B-A3B-APEX / 128K ctx on RTX 3060 12GB — 37 t/s gen with 72k ctx filled, PPL 3.25, offloading 17GB model

Signal

Hype

En 3 lignesQwen3.6-35B-A3B-APEX quantifié par mudler atteint 37 t/s en génération avec 72K contexte rempli sur RTX 3060 12GB via offloading 17.3GB. Optimisations CUDA de spiritbuun (fused MMA, TurboQuant, fattn) + quantization I-Compact APEX donnent PPL 3.25. Contexte 128K supporté, dégradation à 28 t/s @129K.

Lire la source

Ton avis ?

Qwen Génération de code Open source

Résumé généré par Claude — vérifié par l'humain

Qwen3.6-35B-A3B-APEX / 128K ctx on RTX 3060 12GB — 37 t/s gen with 72k ctx filled, PPL 3.25, offloading 17GB model

Autres angles sur ce sujet