Weird to get near linear scaling by adding another GPU?
Signal
45
Hype
15
En 3 lignesUtilisateur rapporte un scaling quasi-linéaire en ajoutant un second GPU (2x RTX 3090) pour Qwen 3.6-27B : decode throughput passe de 53-62 TPS à 94-120 TPS sans NVLink, avec tensor parallelism=2. Observe des erreurs de parsing en mode Agent VSCode mais amélioration globale des performances.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain