Reddit r/LocalLLaMA·28 mai 2026

Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild

Signal

Hype

En 3 lignesZai a remplacé l'architecture réseau d'un cluster de 1000 GPU exécutant GLM-5.1 en passant de ROFT à ZCube (développé avec Tsinghua et HarnetsAI). Résultats : coûts de commutation/optique -33%, débit GPU +15%, latence P99 premier token -40.6%. ZCube élimine la couche Spine pour une interconnexion bipartite complète, résolvant les hotspots de trafic asymétrique du Prefill-Decode disaggregated.

Lire la source

Ton avis ?

Infrastructure Raisonnement

Résumé généré par Claude — vérifié par l'humain

Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild

Autres angles sur ce sujet