Reddit r/LocalLLaMA·8 juin 2026

Weird to get near linear scaling by adding another GPU?

Signal

Hype

En 3 lignesUtilisateur rapporte un scaling quasi-linéaire en ajoutant un second GPU (2x RTX 3090) pour Qwen 3.6-27B : decode throughput passe de 53-62 TPS à 94-120 TPS sans NVLink, avec tensor parallelism=2. Observe des erreurs de parsing en mode Agent VSCode mais amélioration globale des performances.

Lire la source

Ton avis ?

Qwen Agents IA Génération de code Infrastructure

Résumé généré par Claude — vérifié par l'humain

Weird to get near linear scaling by adding another GPU?

Autres angles sur ce sujet