40+tok/s - optimized recipe for Qwen 3.5 122B Int4 on a single DGX Spark with vLLM
Signal
65
Hype
25
En 3 lignesOptimisation de Qwen 3.5 122B Int4 sur DGX Spark avec vLLM atteignant 40+ tokens/s. Meilleure performance de vitesse sur spark-arena pour toutes les longueurs de contexte et niveaux de concurrence en configuration Int4.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain