Retour au feed
Reddit r/LocalLLaMA·

Weird to get near linear scaling by adding another GPU?

Signal
45
Hype
15
En 3 lignesUtilisateur rapporte un scaling quasi-linéaire en ajoutant un second GPU (2x RTX 3090) pour Qwen 3.6-27B : decode throughput passe de 53-62 TPS à 94-120 TPS sans NVLink, avec tensor parallelism=2. Observe des erreurs de parsing en mode Agent VSCode mais amélioration globale des performances.
Lire la source
Ton avis ?
QwenAgents IAGénération de codeInfrastructure

Résumé généré par Claude — vérifié par l'humain