Retour au feed
Reddit r/LocalLLaMA·

Built a config sweep CLI for llama.cpp and vLLM and found out Q4_K_M beat Q8_0 by 230ms TTFT on Qwen2.5-7B

Signal
72
Hype
28
En 3 lignesSigilant-sweep, un CLI open-source pour llama.cpp et vLLM, compare 16 configurations (quantifications, KV cache, contexte). Sur Qwen2.5-7B, Q4_K_M surpasse Q8_0 de 230ms en TTFT et +10.7 TPS. L'outil mesure TPS, TTFT, PPL avec p50/p95 et score pondéré (latence/qualité/équilibre).
Lire la source
Ton avis ?
LlamaBenchmarksOpen sourceOutilsInfrastructure

Résumé généré par Claude — vérifié par l'humain