Retour au feed
Reddit r/LocalLLaMA·

Get you some GPUs, it's not worth the hacks around lack of RAM

Signal
35
Hype
25
En 3 lignesUn utilisateur de r/LocalLLaMA recommande d'investir dans des GPUs plutôt que d'utiliser des hacks pour contourner le manque de VRAM. Il rapporte faire tourner Qwen 3.6-27B en Q8 avec cache K/V f16 sur 2×RTX 3090 d'occasion, atteignant 128k tokens de contexte (1399 pp, 104 tg).
Lire la source
Ton avis ?
QwenOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain