Get you some GPUs, it's not worth the hacks around lack of RAM
Signal
35
Hype
25
En 3 lignesUn utilisateur de r/LocalLLaMA recommande d'investir dans des GPUs plutôt que d'utiliser des hacks pour contourner le manque de VRAM. Il rapporte faire tourner Qwen 3.6-27B en Q8 avec cache K/V f16 sur 2×RTX 3090 d'occasion, atteignant 128k tokens de contexte (1399 pp, 104 tg).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain