标签

智谱AI实现Infra架构新突破 同比性能提升15%

发布时间:2026-05-21 12:16来源:新浪新闻阅读:5

新浪科技讯 5月21日,智谱AI在推理架构上取得重要进展,其新推出的ZCube技术可提升大模型的处理效率。实测数据显示,在相同的硬件配置下,ZCube架构能够将网络带宽从200Gbps提升至400Gbps后,推理吞吐量提升约10%,首响时延下降19%。这一改进在GLM-5.1模型的千卡级集群中得到验证,对比传统ROFT架构,GPU平均推理吞吐量提升了15%以上,同时TTFT P99尾部时延降低了40.6%。

在不改变GPU、服务器或代码的情况下,仅通过架构升级,即可实现推理效率的提升。在相同的GPU型号、软件栈和业务代码下,ZCube架构的部署使吞吐能力提升了15%以上,且在处理延迟方面有显著改善。

这表明,智谱在不增加硬件投入的情况下,通过优化网络架构,实现了更高的性能和更低的时延。

成本方面也得到了显著优化,ZCube架构所需的交换机和光模块比原有方案减少三分之一,且随着规模的扩大,成本优势更加显著。

此外,这种升级方式的边际成本几乎为零:不更换GPU、不更换服务器、不更改代码,仅通过组网架构的优化即可实现性能提升,这相当于对现有算力资产的效率重估。

据悉,ZCube技术已在智谱AI的推理系统中完成生产验证,验证结果表明,该架构在真实的大规模推理场景中具有显著效果。

智谱AI的ZCube技术已在国际顶会ACM SIGCOMM 2025上获得高度评价,被评价为“显著改变整个行业对网络的认知方式”。

该技术的首次实际应用验证由智谱AI完成,表明该技术在实际应用中具有显著效果。