标签

AI基建千亿蓝海,为何潜伏于网络深处?

发布时间:2026-07-03 14:15阅读:3

作者丨包永刚

过去六年,国产GPU企业乘风AI浪潮,估值屡创新高,DPU却长期处于聚光灯之外。

这与产业实情并不相符。

2020年英伟达并购Mellanox之后,便确立了"GPU+CPU+DPU"的三芯布局。近年来英伟达持续加码网络布局,黄仁勋在2026年CES展示"六芯矩阵"时,其中四款产品均与网络息息相关。

一个日益明朗的走向正在显现:AI基础设施的制约因素,正由算力本体向网络与调度层面迁移。

特别是Agent时代来临后,AI系统由训练阶段转向高频推理与永续运转,GPU利用率愈发受制于网络效能。DPU也由昔日数据中心的可选组件,逐步演变为AI基础设施中不可或缺的核心要素。

然而一个值得玩味的问题是,既然英伟达早已重注DPU,缘何过去六年业界始终未能给予其应有重视?

直至云豹智能冲击国产DPU首股获深交所受理,招股书公诸于世,市场方才幡然醒悟,一款能够支撑低延迟、高带宽及高性能数据调度的全功能DPU,或许是AI基础设施中被长期忽视的关键一环。

数年间,AI赛道的竞争重心始终围绕GPU展开。更庞大的模型参数量、更强劲的单卡算力、更昂贵的HBM,几乎攫取了全行业的目光。

但随着模型体量持续膨胀,AI集群由千级GPU向万级GPU跨越,越来越多的企业意识到,GPU已非AI系统中最稀缺的资产,真正价值高昂的是低延迟、高带宽与数据流转效率。

众多算法工程师对此深有体会。在现有AI基础设施架构下,单节点算力相对易得,存储容量次之,最棘手、最昂贵的当属带宽与低延迟。尤其在海量训练与推理场景中,GPU利用率常常难达预期,即便历经深度调优,系统瓶颈仍频繁现身于网络与数据调度层面。

这正是英伟达近年来持续强化网络能力的深层动因。释放的信号亦十分清晰:AI基础设施的角逐,正由单芯片性能比拼转向系统效能较量。

在此进程中,DPU的定位也发生了根本性转变。

在以CPU通用计算为主导的云计算时期,DPU主要承担网络、存储、安全等基础设施任务的卸载工作,被视为数据中心内的从属芯片。进入Agent时代,随着AI基础设施由训练转向高频推理、资源编排与持续调度,DPU正崛起为连接计算、网络与存储的系统级枢纽节点。

尤其在Scale Up架构下,DPU能够优化单节点内部CPU与GPU之间的内存共享及数据流动,压缩数据搬运延迟,提升异构算力的协同效率。在Scale Out架构中,DPU则肩负大规模集群间的数据调度与网络卸载使命,直接影响GPU的实际利用水平。

推理需求的井喷式增长,更进一步凸显了DPU的战略价值。

伴随大模型上下文窗口不断延伸,GPU显存容量成为推理成本的核心瓶颈,DPU可在不追加GPU硬件投入的前提下,拓展AI系统的有效可用内存空间。

2026年GTC大会上,黄仁勋展示了新一代DPU在KV-Cache分层存储领域的技术进展。在最新的Vera Rubin平台中,BlueField-4系列DPU负责KV-Cache管理与硬件加速,于GPU高速HBM与外部存储之间搭建"温数据层",为每颗Rubin GPU动态配置16TB专属上下文空间,突破上下文处理的硬件桎梏,将单Token推理成本削减90%。

AI 推理上下文存储流转机制,