Retour au feed
Reddit r/LocalLLaMA·

Zai replaced the network architecture running GLM-5.1 inference and the gains are pretty wild

Signal
75
Hype
25
En 3 lignesZai a remplacé l'architecture réseau d'un cluster de 1000 GPU exécutant GLM-5.1 en passant de ROFT à ZCube (développé avec Tsinghua et HarnetsAI). Résultats : coûts de commutation/optique -33%, débit GPU +15%, latence P99 premier token -40.6%. ZCube élimine la couche Spine pour une interconnexion bipartite complète, résolvant les hotspots de trafic asymétrique du Prefill-Decode disaggregated.
Lire la source
Ton avis ?
InfrastructureRaisonnement

Résumé généré par Claude — vérifié par l'humain