AI基础设施时代：Google网络架构的演进与重构

发布时间：2026-06-06 15:11阅读：28

这份资料阐述的是Google如何将过去支撑互联网、流媒体和云计算的网络基础设施，转化为服务于AI训练与推理的全新架构体系。

建议从三个维度来理解这个架构。

第一层是AI超级计算系统的内部结构，即单一数据中心或园区内，TPU、存储设备与前端网络如何实现互联互通。第二层是AI超级计算系统的外部结构，即多个园区、跨地域数据以及跨云环境如何整合为一个统一的分布式计算池。第三层是全球互联网络，即AI推理服务如何触达全球终端用户。

传统网络主要服务于网页浏览、视频流媒体和云端应用。AI工作负载呈现出截然不同的特征。

大模型训练过程中，计算节点之间需要频繁进行数据同步。流量模式并非平滑均匀，而是呈现同步爆发的特点：大量加速器在毫秒级时间窗口内同时发起通信。一旦某个节点响应迟缓，整个训练任务都可能陷入停滞。若某个实例发生卡顿，整个同步训练流程可能被迫中止。

Google在文章开篇提出了一个深层次的论断：传输电力的难度远超传输光纤中的数据。

这句话的深层含义在于：单一数据中心受限于物理空间和电力供应。AI计算需求增长迅猛，无法单纯依靠将所有设备集中于同一建筑。更务实的策略是将数据中心部署在能源富集区域，通过网络将多个园区的计算资源整合为池化的AI超级计算资源。

因此，AI时代的网络架构需要解决四大核心问题。

Google将这套网络体系嵌入AI Hypercomputer整体框架中。AI Hypercomputer可理解为一套整合型AI基础设施，涵盖专用硬件、开源软件、数据平台、模型服务、Agent平台及应用生态。网络层负责将这些组件整合为一台可弹性扩展的"超级计算机"。

第一支柱解决的核心问题是"超级计算机内部如何互联"。

大模型训练对网络提出双重压力：带宽需求巨大，延迟要求高度稳定。此处的延迟不仅指平均延迟，更关键的是尾延迟——即少数响应最慢的请求或通信带来的延迟。在同步训练场景中，这些性能瓶颈尤为致命，因为快速节点必须等待慢速节点完成。

Google采用"campus as a computer"的设计理念。不再将园区视为独立数据中心的简单集合，而是将整个园区作为一台统一计算机进行架构设计。

在此理念指导下，网络被划分为三个功能域：

这种分层设计优势明显，各网络域可独立演进。加速器间的训练流量通过专用的scale-out fabric传输；存储与WAN访问则走Jupiter网络。当新一代TPU发布时，网络可与加速器协同设计。

Google在文中重点阐述了Virgo Network——面向现代AI工作负载的scale-out数据中心网络结构。

Virgo的核心特征包括：

通俗解释：高radix交换机能够接入更多端口，扁平两层拓扑减少了网络跳数，非阻塞设计确保大规模训练通信不易被网络瓶颈阻塞。bisection bandwidth可理解为将网络分割为两部分时，两部分之间的总通信能力。AI训练需要大量加速器相互通信，因此该指标至关重要。

multi-planar架构解决的是可靠性挑战。多个plane相当于多组相对独立的网络平面。当某一平面发生故障时，故障影响更容易被隔离，不会波及其他平面。

Google提供的规模数据非常具体：

需注意一个关键分工：Virgo处理的是原始加速器流量，Jupiter提供对全球WAN和存储的高速可靠访问。也就是说，训练内部通信与外部访问并非混杂在同一网络中随机调度，而是有明确的功能划分。

大规模训练不能仅关注峰值带宽。真正关键的是有效训练产出，即goodput。

若集群包含数十万颗芯片，硬件故障不再是偶发事件而是必然事件。某个实例卡顿可能导致整个同步训练任务陷入等待。训练任务规模越大，单点故障造成的资源浪费越明显。

Virgo Network引入了自主可靠性机制。在现有straggler detection基础上，新增了自动hang detection功能。straggler指拖慢整体训练进度的慢节点，hang指实例卡死或停止响应。

当fail-stop事件发生时，专用代理执行三项操作：

这套机制承认一个现实：硬件必然会发生故障。工程重点在于快速检测故障、精准隔离故障点，并从checkpoint快速恢复训练。

Google还强调了高分辨率、亚毫秒级遥测能力。传统监控通常按30秒间隔采样，但AI训练中的micro-burst可能仅持续极短时间。30秒监控周期可能显示一切正常，而实际训练任务已被瞬时突发流量影响。亚毫秒级遥测正是为了捕捉这些短暂的网络流量尖峰。

第二支柱解决的核心问题是"多个超级计算机之间如何互联"。

AI计算不一定局限于单一园区完成。训练数据可能存储在本地机房、其他云平台或不同区域，计算资源也可能分散于多个园区。因此，WAN不再仅是普通的企业互联链路，而是训练链路的关键组成部分。

Google在此阐述了三种设计模式。

第一类是multi-shard global network，通过多个网络分片实现水平扩展。Google披露，从2020年到2025年，其全球网络承载了10倍的WAN流量增长。多分片架构的价值在于，将控制面、数据面、管理面分散至不同shard，避免所有流量和控制逻辑堆积在单一平面上。

第二类设计围绕可用性、延迟和QoS进行fabric优化。QoS即Quality of Service，核心是为不同流量提供差异化的优先级和保障机制。在AI多租户环境中，若某个租户或任务出现突发流量，不应影响其他任务。实时microburst管理用于公平分配带宽，并隔离基础设施层面的影响。

第三类是multi-shard isolation，每个shard拥有独立的控制平面、数据平面和管理平面，使故障更容易被限制在局部范围内。

这些设计还结合了regional isolation和Protective Reroute机制。regional isolation即区域隔离，Protective Reroute即保护性重路由。两者目标一致：缩小故障影响范围，缩短用户可感知的中断时长。

跨站点AI训练面临一个现实挑战：数据搬运。

AI训练依赖大规模数据集，而数据可能分布在企业本地、其他云或不同区域。AI计算成本高昂，若GPU或TPU等待数据传输，成本就会直接浪费。

Google提供了一个直观的案例：

因此，AI-native Cloud Interconnect更像是专为AI数据流动设计的专线服务。它采用优化后的数据传输路径，单链路支持400Gbps，可按3.2Tbps增量扩展至petabit级容量。

它还支持流量差异化调度，以及直接光纤peering、托管机房连接等多种方式。对于跨云训练、企业本地数据接入、私有连接场景，这类互联服务直接影响AI计算资源的利用效率。

第三支柱解决的核心问题是"AI应用如何服务全球用户"。

训练阶段关注的是大规模同步计算。推理阶段关注的是响应速度、服务可用性和全球覆盖范围。AI推理应用与传统Web应用相比，压力更为复杂。

面向全球用户的AI应用，可能需要调用远端的昂贵AI计算资源，依赖多个分布式服务，还要与SaaS、ISP、其他云厂商保持连接。企业Agent应用场景类似，它不仅返回网页内容，还要调用工具、访问业务系统、等待模型生成结果。

这要求全球网络具备以下能力：

Google披露的全球网络规模包括：

这些资源支撑AI推理服务的全球入口。Premium Tier网络优化流量进出Google网络的边界点，减少互联网中不稳定路由对应用体验的负面影响。

这部分可理解为：训练需要"将大量机器整合为一台超级计算机"，推理需要"将这台超级计算机的能力稳定传递至全球用户"。

AI Hypercomputer：Google提出的AI基础设施组织方式，将专用硬件、开源软件、网络、数据平台、模型服务及应用生态整合于统一体系。

fabric：网络织物。此处并非指单根链路，而是指用于连接大量计算、存储和加速器的完整网络架构体系。

scale-up：在紧凑计算单元内部进行扩展，常用于pod内部或单一训练单元内部互联。

scale-out：连接更多节点、加速器或园区，实现水平扩展。

east-west traffic：东西向流量，通常指数据中心内部节点之间的横向通信。

north-south traffic：南北向流量，通常指计算资源访问外部服务、存储、WAN或前端入口的通信。

bisection bandwidth：网络切分为两部分时，两部分之间的总通信能力。大规模训练对该指标要求极高。

goodput：真正转化为有效训练进展的吞吐量，不仅限于理论带宽或峰值吞吐。

straggler detection：检测拖慢整体训练进度的慢节点。

hang detection：检测实例卡死或停止响应的情况。

micro-burst：持续时间极短但强度极高的流量突发，传统低频监控难以捕捉。

QoS：Quality of Service，为不同流量提供差异化优先级、带宽和延迟保障。

这份资料适合理解AI基础设施的一条核心脉络：模型规模扩大后，性能瓶颈不仅在芯片层面，网络同样关键。

若关注AI基础设施、云服务商竞争、企业大模型部署或Agent平台，会发现许多问题最终都指向网络层面：

同时需注意，本文主要阐述Google自身的基础设施能力。它提供的是架构层面的参考价值，并非所有企业都需要自建同等规模的网络。更务实的学习要点是：AI工作负载增长后，网络设计需从"连接资源"升级为"组织计算资源"。

← 上一篇：AI赋能视频创作 | 《今日人工智能》实战内训营圆满收官下一篇：AI的终极较量：谁能托住底层的未来 →