Comparing dual-GPU inference speed between llama.cpp row/tensor split and ik_llama graph split
Signal
45
Hype
15
En 3 lignesBenchmark dual-GPU (2× RTX 3080 20GB) comparant llama.cpp (row/tensor split) vs ik_llama (graph split) sur Qwen3.6-27B-Q8_0. Row split : 1732 t/s prompt, 23 t/s génération, VRAM 18.2/18.5 GB. Tensor et graph split non détaillés dans l'extrait.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain