llama.cpp - Qwen3.6/3.5-MTP - Share your benchmarks t/s
Signal
72
Hype
15
En 3 lignesllama.cpp optimise le support de Qwen 3.6/3.5-MTP après plusieurs PR et corrections. La communauté partage des benchmarks tokens/s avec configurations détaillées (quantification, contexte, KVCache, MTP). Exemple : 207.90 t/s en prompt eval, 24.07 t/s en génération avec taux d'acceptation draft 52.6%.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain