110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp
Signal
72
Hype
25
En 3 lignesik_llama.cpp surpasse llama.cpp sur RTX 4070 Super 12GB : 110 tok/s en moyenne vs 90.6 tok/s avec Qwen3.6-35B-A3B-IQ4_XS. Meilleure optimisation CPU offloading et speculative decoding (MTP) après dégradation des performances post-merge dans llama.cpp.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain