标签

AI算力造富神话与破局者的反击

发布时间:2026-06-19 22:16阅读:1

这绝非正常商业环境下的盈利水准,而是典型的垄断溢价。

英伟达2026财年数据中心板块营收折合约1937亿美元。这意味着什么?台积电2025年全年预估营收约900亿美元——单单英伟达数据中心的进账,就超过了这家全球头号晶圆代工巨头年营收的两倍有余。

英伟达早已不是单纯的硬件显卡供应商,它实质上在运营一家造币厂。而那块核心印版——CUDA + NVLink + 台积电CoWoS——短期内地球上找不出第二家企业能够仿制。

这条生态之路黄仁勋苦心经营了将近二十年。回溯2006年CUDA初问世,当时无人确信它除了游戏渲染外还有何用。直到2012年AlexNet凭借两块GTX 580横扫传统算法,学术圈才开始大规模采购NVIDIA显卡。2016年老黄亲自将首台DGX-1交付OpenAI——包装箱上赫然印着“为计算与人类之未来”。十年弹指过隙,OpenAI身价突破3000亿美元,其历代大模型的训练均无法脱离那台初代设备的衣钵传承。

然而这台印钞机的运转瓶颈,正日益凸显。

一条铁律:GPU代际更迭,功耗几乎成倍激增。V100 300W → A100 400W → H100 700W → B200 1000W → R100 2300W。如今单颗GPU的能耗已经匹敌一台壁挂式空调。

这种节奏绝非偶然,实为精算。假设数据中心供电恒定为10MW:H100集群(14000颗): 28 PFLOPSVS B200集群(10000颗): 45 PFLOPS

耗费同等电费,算力跃升60%。核心逻辑在于:老集群仍在运转,而新集群耗电仅为一半。从经济学视角审视,上代GPU瞬间沦为“负资产”——同等电费只能换取更少的算力。英伟达售卖的并非单纯的GPU,它是在经济层面上令你的旧有GPU加速折旧。

每逢硬件迭代,云服务巨头皆不得不乖乖买单——因为一旦拒购,竞对就会凭借更新款GPU去训练更庞大的模型。

不过,Scaling Laws的效应正逐步减弱。训练需求增速已由早期的每年4倍滑坡至约2倍。若此态势蔓延,“性能跑步机”的履带转速迟早会降档。

谷歌TPU v7单卡算力达4.6 PFLOPS,性能固然强悍却非卖品——它仅服务于谷歌内部的垂直体系,根本撼动不了NVIDIA在开放商业市场的霸权。

亚马逊Trainium3与Cerebras WSE-3堪称两则典型边缘样本。前者原生支持Ultra Ethernet、在AWS内部总拥有成本最优,但客群局限于AWS用户。后者坐拥4万亿晶体管及7000倍片上带宽着实惊艳,可惜训练适用面过窄——堪称SRAM工程的奇迹,注定无法跻身主流。

然而上述硬件参数的角逐,皆忽视了一道更难跨越的天堑——软件生态。AI训练绝非仅看硬件算力峰值,而是整套工具链的无缝衔接:PyTorch → 分布式策略(FSDP/DeepSpeed)→ 算子库(cuDNN/cuBLAS)→ 推理引擎(TensorRT-LLM/vLLM),这层层架构均针对NVIDIA GPU做了深度调优。

细言之:PyTorch历次迭代均对CUDA实施内核级优化,ROCm则需额外编译,FlashAttention-2等核心算子性能折损达20-40%。DeepSpeed与Megatron-LM针对ROCm的适配,要么版本滞后,要么需手动打补丁——大模型团队若更换显卡,极易发现依赖库直接罢工。部署环节更显骨感:vLLM视CUDA为“一等公民”,ROCm仅靠社区维护,训练完毕的模型上线部署时,往往只能被迫切回NVIDIA阵营。

此即CUDA的“软件税”,绝非单点技术绑定,实乃十年沉淀的网络效应:开发者编写CUDA→框架调优CUDA→更多开发者涌入CUDA→更多第三方库仅兼容CUDA。并非ROCm技不如人,实乃其降生之际,市场已无第二条工具链的生态容身之所。全球约400万AI开发者,逾90%被吸附于CUDA生态圈内。此非技术鸿沟,而是生态惯性——诸般护城河中最难泅渡之属。

各路挑战者共享同一窘境:NVIDIA绝非仅凭GPU硬件称王,赢在生态。CUDA + cuDNN + TensorRT + NVLink + NVSwitch + DGX系统生态,构筑了从硅片底层到集群顶层的垂直全栈。

NVIDIA的防守利器是NVLink+NVSwitch。B200具备1.8TB/s双向带宽(18条NVLink 5.0链路,各100GB/s),达PCIe Gen5 x16带宽的14倍。NVSwitch 5提供144 TB/s聚合交换容量,使72颗GPU在机柜内融为“GPU孤岛”,逻辑上等同一颗超级GPU。GB200 NVL72高达130 TB/s的全互联带宽,迄今仍是竞品难以企及的天花板。

然而NVLink的辐射极限是576颗GPU——越过此边界,必须仰仗InfiniBand或以太网。这恰是NVIDIA防线最脆弱的软肋。

InfiniBand单端口造价高达5-10K美元,极其昂贵。xAI的Colossus集群借助NVIDIA Spectrum-X实现了95%的吞吐效率,但Spectrum-X本就隶属NVIDIA——从GPU到交换机再到网卡,xAI掏出的每一分钱皆流入了NVIDIA的腰包。

超以太网联盟(2024年组建,成员超百家)乃反击中枢。AMD、Meta、微软、谷歌、思科合力推进1.6Tbps开放标准。新思科技已于2025上半年交付首款商用IP。Dell’Oro数据表明,在AI后端网络部署中,以太网占比已逆袭超越InfiniBand。

倘若UEC大获成功,NVIDIA的互联枷锁极有可能被砸碎。云厂商将斩获更多选择权,无需再被迫为NVIDIA的交换机买单,转而可混合部署多供应商的GPU。UEC的深层战略价值无关网络协议的技术高下——而是AI算力供应链能否挣脱单一供应商钳制的系统性博弈。

单卡能耗直观可见。B200已堪比一台空调。GB200 NVL72单机柜功耗约140kW,Vera Rubin预计突破500kW——这早已脱离传统数据中心范畴,彻头彻尾是工业级基础设施。

AI大模型训练对电力的渴求堪称海量。高盛预测,美国数据中心电力需求将由2025年31GW翻倍至2027年66GW。在建及签约规模已高达183GW——占美国高峰总用电量的22%。北弗吉尼亚州PJM电网容量价格在两年内自$28.92狂飙10倍至$329.17/MW-day。

2026至2027年,AI训练的真正掣肘并非晶体管密度,亦非光刻精度,甚至不是HBM——而是电力。全美仅约50-60%的AI数据中心可如期通电,余者将面临延期或搁浅【高盛电力报告】。核电站与小型模块化反应堆正跃升为超算集群的标配——最前沿的芯片,竟在催生最古老的能源技术复兴。

单论算力性能,差距确在缩窄。但更深层的鸿沟实则在于集群互联:NVLink 4.0(H100世代)900GB/s,华为自研方案仅约200GB/s。千卡以上集群NVIDIA可维系90%以上效率,华为受制于互联瓶颈,利用率或不足50%。

美国出口管制时间轴:2022年9月A100/H100禁令→10月H800/A800堵漏→2024年H20受限(互联带宽阉割至600GB/s)→2025年4月H20/MI308追加禁令,NVIDIA计提55亿美元损失→2026年3月B200/B300仍遭全面封杀。

中国AI芯片国产化率由2024年的约35%攀升至2025年的约40%。颇为玩味的是,DeepSeek凭借受限的H800集群训练出了比肩GPT-4的大模型,释放了明确信号:受限硬件辅以架构创新,同样能孕育世界级成果。不仅如此,据悉DeepSeek v4于2026年采用昇腾进行训练,已取得可观进展,未来大有可期!

整体观之,出口管制的反噬效应正加速发酵:中国AI芯片生态正被倒逼走向成熟。制裁的吊诡之处恰在于——它拖慢了中国获取尖端硬件的脚步,却极大加速了本土替代品由“堪用”向“好用”的进化。

其一,功耗。当100MW+集群需标配专属发电站,“算力印钞机”的经济学逻辑开始扭曲。B200每瓦能效较H100提升约2倍,但绝对功耗翻番,整体电费曲线依然陡峭向上。

其二,互联标准化。若Ultra Ethernet + UALink顺利落地,NVLink的垄断护城河将被瓦解。UALink 1.0(2025年4月)旨在支持1,024个加速器互联,直击“GPU孤岛”模式腹地。

其三,Scaling Laws退潮。训练需求增速由每年4倍降至2倍。若持续放缓,英伟达每年翻倍的营收预期将承压。B300的均价涨幅已收窄——定价权或已触及天花板。

投资分析指出,英伟达在AI训练市场的份额大概率于2028年前由85%回落至70%上下,但仍是该领域无可争议的霸主。毛利率虽可能由78%缓降至65-70%,绝对值仍将傲视全球硬件圈。真正重塑格局的绝非某家竞对的GPU参数,而是电力基建与经济法则。当算力的边际成本不再下探,“训练更强模型”便从技术攻坚蜕变为经济账本。

英伟达的造富机器依旧轰鸣,只是油压表正高位剧烈摆动。这台印钞机骤停的根由,大概率不会是对手造出了更优的机器,而是电网的保险丝率先熔断。