advice for dual-gpu asymmetric
Signal
35
Hype
15
En 3 lignesUtilisateur avec RTX 3080 Ti 12GB + RTX 3080 20GB cherche à optimiser l'inférence asymétrique. Gemma 4 31B en Q4_K_XL atteint 20t/s avec cache standard, 70t/s en compressant cache K/V en q4_0. Demande clarification sur expansion mémoire GGUF et conseils configuration dual-GPU.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain