标签

AI基础设施时代:Google网络架构的演进与重构

发布时间:2026-06-06 15:11来源:微信阅读:2

这份资料阐述的是Google如何将过去支撑互联网、流媒体和云计算的网络基础设施,转化为服务于AI训练与推理的全新架构体系。

建议从三个维度来理解这个架构。

第一层是AI超级计算系统的内部结构,即单一数据中心或园区内,TPU、存储设备与前端网络如何实现互联互通。第二层是AI超级计算系统的外部结构,即多个园区、跨地域数据以及跨云环境如何整合为一个统一的分布式计算池。第三层是全球互联网络,即AI推理服务如何触达全球终端用户。

传统网络主要服务于网页浏览、视频流媒体和云端应用。AI工作负载呈现出截然不同的特征。

大模型训练过程中,计算节点之间需要频繁进行数据同步。流量模式并非平滑均匀,而是呈现同步爆发的特点:大量加速器在毫秒级时间窗口内同时发起通信。一旦某个节点响应迟缓,整个训练任务都可能陷入停滞。若某个实例发生卡顿,整个同步训练流程可能被迫中止。

Google在文章开篇提出了一个深层次的论断:传输电力的难度远超传输光纤中的数据。

这句话的深层含义在于:单一数据中心受限于物理空间和电力供应。AI计算需求增长迅猛,无法单纯依靠将所有设备集中于同一建筑。更务实的策略是将数据中心部署在能源富集区域,通过网络将多个园区的计算资源整合为池化的AI超级计算资源。

因此,AI时代的网络架构需要解决四大核心问题。

Google将这套网络体系嵌入AI Hypercomputer整体框架中。AI Hypercomputer可理解为一套整合型AI基础设施,涵盖专用硬件、开源软件、数据平台、模型服务、Agent平台及应用生态。网络层负责将这些组件整合为一台可弹性扩展的"超级计算机"。

第一支柱解决的核心问题是"超级计算机内部如何互联"。

大模型训练对网络提出双重压力:带宽需求巨大,延迟要求高度稳定。此处的延迟不仅指平均延迟,更关键的是尾延迟——即少数响应最慢的请求或通信带来的延迟。在同步训练场景中,这些性能瓶颈尤为致命,因为快速节点必须等待慢速节点完成。

Google采用"campus as a computer"的设计理念。不再将园区视为独立数据中心的简单集合,而是将整个园区作为一台统一计算机进行架构设计。

在此理念指导下,网络被划分为三个功能域:

这种分层设计优势明显,各网络域可独立演进。加速器间的训练流量通过专用的scale-out fabric传输;存储与WAN访问则走Jupiter网络。当新一代TPU发布时,网络可与加速器协同设计。

Google在文中重点阐述了Virgo Network——面向现代AI工作负载的scale-out数据中心网络结构。

Virgo的核心特征包括:

通俗解释:高radix交换机能够接入更多端口,扁平两层拓扑减少了网络跳数,非阻塞设计确保大规模训练通信不易被网络瓶颈阻塞。bisection bandwidth可理解为将网络分割为两部分时,两部分之间的总通信能力。AI训练需要大量加速器相互通信,因此该指标至关重要。

multi-planar架构解决的是可靠性挑战。多个plane相当于多组相对独立的网络平面。当某一平面发生故障时,故障影响更容易被隔离,不会波及其他平面。

Google提供的规模数据非常具体:

需注意一个关键分工:Virgo处理的是原始加速器流量,Jupiter提供对全球WAN和存储的高速可靠访问。也就是说,训练内部通信与外部访问并非混杂在同一网络中随机调度,而是有明确的功能划分。

大规模训练不能仅关注峰值带宽。真正关键的是有效训练产出,即goodput。

若集群包含数十万颗芯片,硬件故障不再是偶发事件而是必然事件。某个实例卡顿可能导致整个同步训练任务陷入等待。训练任务规模越大,单点故障造成的资源浪费越明显。

Virgo Network引入了自主可靠性机制。在现有straggler detection基础上,新增了自动hang detection功能。straggler指拖慢整体训练进度的慢节点,hang指实例卡死或停止响应。

当fail-stop事件发生时,专用代理执行三项操作:

这套机制承认一个现实:硬件必然会发生故障。工程重点在于快速检测故障、精准隔离故障点,并从checkpoint快速恢复训练。

Google还强调了高分辨率、亚毫秒级遥测能力。传统监控通常按30秒间隔采样,但AI训练中的micro-burst可能仅持续极短时间。30秒监控周期可能显示一切正常,而实际训练任务已被瞬时突发流量影响。亚毫秒级遥测正是为了捕捉这些短暂的网络流量尖峰。

第二支柱解决的核心问题是"多个超级计算机之间如何互联"。

AI计算不一定局限于单一园区完成。训练数据可能存储在本地机房、其他云平台或不同区域,计算资源也可能分散于多个园区。因此,WAN不再仅是普通的企业互联链路,而是训练链路的关键组成部分。

Google在此阐述了三种设计模式。

第一类是multi-shard global network,通过多个网络分片实现水平扩展。Google披露,从2020年到2025年,其全球网络承载了10倍的WAN流量增长。多分片架构的价值在于,将控制面、数据面、管理面分散至不同shard,避免所有流量和控制逻辑堆积在单一平面上。

第二类设计围绕可用性、延迟和QoS进行fabric优化。QoS即Quality of Service,核心是为不同流量提供差异化的优先级和保障机制。在AI多租户环境中,若某个租户或任务出现突发流量,不应影响其他任务。实时microburst管理用于公平分配带宽,并隔离基础设施层面的影响。

第三类是multi-shard isolation,每个shard拥有独立的控制平面、数据平面和管理平面,使故障更容易被限制在局部范围内。

这些设计还结合了regional isolation和Protective Reroute机制。regional isolation即区域隔离,Protective Reroute即保护性重路由。两者目标一致:缩小故障影响范围,缩短用户可感知的中断时长。

跨站点AI训练面临一个现实挑战:数据搬运。

AI训练依赖大规模数据集,而数据可能分布在企业本地、其他云或不同区域。AI计算成本高昂,若GPU或TPU等待数据传输,成本就会直接浪费。

Google提供了一个直观的案例:

因此,AI-native Cloud Interconnect更像是专为AI数据流动设计的专线服务。它采用优化后的数据传输路径,单链路支持400Gbps,可按3.2Tbps增量扩展至petabit级容量。

它还支持流量差异化调度,以及直接光纤peering、托管机房连接等多种方式。对于跨云训练、企业本地数据接入、私有连接场景,这类互联服务直接影响AI计算资源的利用效率。

第三支柱解决的核心问题是"AI应用如何服务全球用户"。

训练阶段关注的是大规模同步计算。推理阶段关注的是响应速度、服务可用性和全球覆盖范围。AI推理应用与传统Web应用相比,压力更为复杂。

面向全球用户的AI应用,可能需要调用远端的昂贵AI计算资源,依赖多个分布式服务,还要与SaaS、ISP、其他云厂商保持连接。企业Agent应用场景类似,它不仅返回网页内容,还要调用工具、访问业务系统、等待模型生成结果。

这要求全球网络具备以下能力:

Google披露的全球网络规模包括:

这些资源支撑AI推理服务的全球入口。Premium Tier网络优化流量进出Google网络的边界点,减少互联网中不稳定路由对应用体验的负面影响。

这部分可理解为:训练需要"将大量机器整合为一台超级计算机",推理需要"将这台超级计算机的能力稳定传递至全球用户"。

AI Hypercomputer:Google提出的AI基础设施组织方式,将专用硬件、开源软件、网络、数据平台、模型服务及应用生态整合于统一体系。

fabric:网络织物。此处并非指单根链路,而是指用于连接大量计算、存储和加速器的完整网络架构体系。

scale-up:在紧凑计算单元内部进行扩展,常用于pod内部或单一训练单元内部互联。

scale-out:连接更多节点、加速器或园区,实现水平扩展。

east-west traffic:东西向流量,通常指数据中心内部节点之间的横向通信。

north-south traffic:南北向流量,通常指计算资源访问外部服务、存储、WAN或前端入口的通信。

bisection bandwidth:网络切分为两部分时,两部分之间的总通信能力。大规模训练对该指标要求极高。

goodput:真正转化为有效训练进展的吞吐量,不仅限于理论带宽或峰值吞吐。

straggler detection:检测拖慢整体训练进度的慢节点。

hang detection:检测实例卡死或停止响应的情况。

micro-burst:持续时间极短但强度极高的流量突发,传统低频监控难以捕捉。

QoS:Quality of Service,为不同流量提供差异化优先级、带宽和延迟保障。

这份资料适合理解AI基础设施的一条核心脉络:模型规模扩大后,性能瓶颈不仅在芯片层面,网络同样关键。

若关注AI基础设施、云服务商竞争、企业大模型部署或Agent平台,会发现许多问题最终都指向网络层面:

同时需注意,本文主要阐述Google自身的基础设施能力。它提供的是架构层面的参考价值,并非所有企业都需要自建同等规模的网络。更务实的学习要点是:AI工作负载增长后,网络设计需从"连接资源"升级为"组织计算资源"。