2026 AI网络格局重塑:以太网逆袭InfiniBand
小Q
2026年3月,Dell'Oro Group公布了一份引发行业热议的报告:在2025年的AI后端网络领域,以太网交换机的销售额是InfiniBand的两倍之多,占据了该市场三分之二以上的版图。回顾两年前的2023年末,市场的主导权还完全属于InfiniBand——其份额一度超过80%。
推动这一局势逆转的关键在于NVIDIA Spectrum-X。根据IDC的统计,2025年第二季度,NVIDIA力压Arista,跃升为数据中心以太网交换领域的领头羊。依靠Spectrum-X,NVIDIA拿下了25.9%的市场份额,当季销售额约22.6亿美元,同比增幅高达647%。此外,NVIDIA在2026财年第二季度的网络收入也达到了72.5亿美元,同比激增98%。
这些数据揭示了一个趋势:AI基础设施正从单纯的GPU军备竞赛,迈向系统协同优化的深水区。网络的角色已不再局限于简单的"传输管道",它直接关乎大模型训练的效率以及总拥有成本(TCO)。
当下AI数据中心网络主要划分为Scale-Up(机内GPU互联)和Scale-Out(机间集群互联)两个层级。特别是在Scale-Out层面,目前呈现三足鼎立的态势:
NVIDIA的NDR 400(单端口400Gb/s,时延1微秒)已成为当前万卡集群的主流部署标准。据Mordor Intelligence预测,2026年全球InfiniBand市场规模约为350.7亿美元,预计到2031年将增至1644亿美元,年复合增长率(CAGR)为36.2%。然而,IB正面临严峻挑战:
• 成本高昂:单端口NDR网卡价格超过2000美元,交换机成本是同级以太网的3至5倍 • 生态封闭:与NVIDIA深度绑定,AMD MI系列支持乏力 • 市场萎缩:以太网正在从两端不断挤压IB的市场份额
RoCE v2运行在标准以太网之上,成本仅为IB的1/3至1/5,但PFC死锁和DCQCN调优的难题一直存在。超以太网联盟(UEC)正是针对这一痛点发力——UEC 1.0标准已于2025年末发布,引入Packet Spraying取代ECMP,并采用Telemetry-driven拥塞控制替代DCQCN,从而在链路层层面原生优化AI集合通信。
UEC目前拥有55家以上的会员,成员涵盖AMD、Intel、Broadcom、Cisco、Meta、Microsoft、NTT等巨头。预计2026年下半年将有商用芯片样品问世,2027年实现规模化部署。若UEC按计划推进,RoCE的PFC死锁问题将得到根本性解决,届时UEC生态将真正具备撼动IB地位的实力。
NVLink是NVIDIA实现GPU紧密耦合的"秘密武器"。第五代NVLink(Blackwell)单卡带宽达1.8TB/s,可扩展至576个GPU域;第六代NVLink(Rubin)更是将单卡带宽提升至3.6TB/s,这标志着NVIDIA在这一领域已对竞争对手形成了代际优势。
在GTC 2026大会上,NVIDIA展示了一条更为激进的路径:光学Scale-Up架构(Oberon机柜系统),利用共封装光学(CPO)技术将NVLink延伸至跨机柜级别。这表明NVIDIA正致力于将网络优势从Scale-Out领域全面拓展至Scale-Up领域。
2026年的网络竞争格局呈现出"一超多强、技术路线分化"的态势:
NVIDIA:依托Spectrum-X在以太网领域的快速扩张,结合NVLink Scale-Up构建芯片级高速互联壁垒。在FY2026年,其全年营收约2724亿美元,其中网络业务已成长为仅次于GPU的核心支柱。Meta宣布2026年将投入高达1350亿美元用于AI基础设施建设,大量采用Spectrum-X方案,这使其成为NVIDIA网络业务最大的单一客户。
Arista:推出了7800R4/7280R4系列800G交换机,基于Jericho 3+ ASIC的HyperPort技术,主要瞄准AI互联及超大规模数据中心市场。尽管在2025年第二季度被NVIDIA超越,但目前正在积极反攻。
Broadcom/Cisco/Marvell:均在围绕UEC生态布局800G/1.6T交换机芯片及网卡产品线。Marvell已于2026年5月发布了针对AI Scale-Up网络的专项解决方案。
综上所述,可以得出三个关键判断:
判断一:2026年是网络格局"换挡"的关键节点。以太网已取代IB成为AI Scale-Out网络的主流载体,IB则退守至超大规模纯NVIDIA集群场景。数据中心网络在2026年的市场规模约为444亿美元,预计到2034年将增至1141亿美元(CAGR 12.5%),AI是其中最强的增长引擎。
判断二:Scale-Up网络正成为新的战略制高点。NVIDIA通过NVLink建立了芯片级互联壁垒,尽管竞争对手(UALink联盟)正在追赶,但差距依然明显。光学互联和CPO技术预计将从2027年起改变Scale-Up领域的游戏规则。
判断三:UEC是2027年最大的不确定变量。若UEC按计划落地,RoCE/UEC将抢占新增训练集群50%以上的份额,IB将进一步收缩。建议企业在规划2027至2028年的集群时,将UEC兼容性纳入选型的核心考量。
——— END ———
作者:小Q | AI基础设施产业调研 数据