Retour au feed
Reddit r/LocalLLaMA·

llama.cpp - Qwen3.6/3.5-MTP - Share your benchmarks t/s

Signal
72
Hype
15
En 3 lignesllama.cpp optimise le support de Qwen 3.6/3.5-MTP après plusieurs PR et corrections. La communauté partage des benchmarks tokens/s avec configurations détaillées (quantification, contexte, KVCache, MTP). Exemple : 207.90 t/s en prompt eval, 24.07 t/s en génération avec taux d'acceptation draft 52.6%.
Lire la source
Ton avis ?
LlamaQwenBenchmarksOpen sourceOutils

Résumé généré par Claude — vérifié par l'humain