Retour au feed
Reddit r/LocalLLaMA·

Another shout out to llama.cpp build b9455 2x3090

Signal
72
Hype
25
En 3 lignesllama.cpp build b9455 avec tensor-split atteint 70+ tokens/s sur Qwen3.6-27B-UD-Q8_K_XL avec 2x3090, rivalisant avec vllm. Spéculative decoding MTP et flash-attention activés. Contexte jusqu'à 262K tokens, prefill à 1400+ t/s.
Lire la source
Ton avis ?
LlamaQwenGénération de codeOpen sourceInfrastructure

Résumé généré par Claude — vérifié par l'humain