Retour au feed
Reddit r/LocalLLaMA·

40+tok/s - optimized recipe for Qwen 3.5 122B Int4 on a single DGX Spark with vLLM

Signal
65
Hype
25
En 3 lignesOptimisation de Qwen 3.5 122B Int4 sur DGX Spark avec vLLM atteignant 40+ tokens/s. Meilleure performance de vitesse sur spark-arena pour toutes les longueurs de contexte et niveaux de concurrence en configuration Int4.
Lire la source
Ton avis ?
QwenBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain