<汇港通讯> 智谱(02513)表示,针对预填充(Prefill)及解码(Decode)分离(PD分离)部署中,日益严峻结构性网络拥塞难题,近日联合驭驯网络和清华大学,在开源模型GLM-5.1的线上生产推理集群中,成功规模化落地新一代网络架构ZCube。
智谱指,通过将ZCube投入在千卡级GLM-5.1的一个线上推理集群中,在GPU型号、软件栈、业务代码全部不变前提下,实现成本优化,GPU、软件栈及应用保持不变,交换机与光模组资本支出减少33%;吞吐提升,GPU平均推理吞吐提升15%;以及时延改善,TTFT P99降低40.6%。
在相同规模下,ZCube可以比传统Clos/ROFT架构减少约三分一的交换机和光模组成本,比如对於万卡智算集群,ZCube架构可节省网络硬件投资约2.1亿至6.4亿元人民币,意味付出更低网络成本可获更好负载均衡与性能表现。 (ST)
新闻来源 (不包括新闻图片): 汇港资讯