Reddit r/LocalLLaMA·12 juin 2026

Comparing dual-GPU inference speed between llama.cpp row/tensor split and ik_llama graph split

Signal

Hype

En 3 lignesBenchmark dual-GPU (2× RTX 3080 20GB) comparant llama.cpp (row/tensor split) vs ik_llama (graph split) sur Qwen3.6-27B-Q8_0. Row split : 1732 t/s prompt, 23 t/s génération, VRAM 18.2/18.5 GB. Tensor et graph split non détaillés dans l'extrait.

Lire la source

Ton avis ?

Llama Benchmarks Génération de code Infrastructure

Résumé généré par Claude — vérifié par l'humain

Comparing dual-GPU inference speed between llama.cpp row/tensor split and ik_llama graph split

Autres angles sur ce sujet