标签

电力与Token的双重博弈:英伟达GTC大会揭示AI竞争新规则

发布时间:2026-06-09 13:04来源:微信阅读:1

英伟达掌门人在GTC 2026大会上的发言,向业界释放了两个关键信息。

首要信息是,Token的价值体系正在经历重新洗牌。处理速度从每秒50个Token跃升至800个以上,而单个Token的定价也从几美元飙升至150美元——这一增长曲线的陡峭程度远超业界预期。

第二条信息则隐含在演讲细节中。当他阐述Vera Rubin平台时,反复提及一个核心限制:数据中心的电力容量有天花板。1GW的设施不可能瞬间变成2GW。这意味着,在既定的电力资源下,谁能更快速地产出高价值Token,谁就掌握了市场定价权。

综合这两个信息,AI竞争下半场的本质清晰可见:这不是单纯的芯片性能较量,而是"单位电力能产生多少美元Token"的效率比拼。

推理系统的架构设计,长期受到一个根本性权衡的制约:系统吞吐量与响应时延之间存在天然的张力。

批处理模式虽然能提升单位时间内的Token生成量,但会导致单个请求的等待时间延长;反之,专注于降低延迟则需要以牺牲整体系统吞吐能力为代价。从经济学角度看,推理过程的成本按耗时计费,而收益则按Token数量核算——在算力资源受限的条件下,系统只能在性能边界上寻求平衡。

过去一年间,这种权衡关系出现了显著变化。

OpenAI发布的Codex-Spark实现了毫秒级编程响应,处理速度高达1000Token/秒;英伟达超大规模业务副总裁展示的多智能体系统,运行时速将超过1500 TPS。这些应用的共同特点是:交互主体已从人类转向机器。由于人类阅读速度存在生理限制,每秒几十个Token已能满足流畅体验;但智能体间的协同工作,则要求近乎零延时的响应机制。

低延迟推理正从"细分市场"逐步迈向主流应用。去年底,英伟达斥资200亿美元获取Groq推理技术授权,并将其核心研发团队纳入旗下。今年GTC上展出的Groq 3 LPX机架,正是对这一趋势的精准响应——配备500 MB SRAM缓存,带宽高达150TB/秒,专门针对延迟敏感型解码环节优化。黄仁勋建议的配置策略是:对于高价值的编程级Token处理需求,可将25%的数据中心资源分配给LPX。

这表明推理架构正朝着专业化分工方向演进:预处理环节由Vera Rubin承担,解码任务交由Groq处理,中间调度则依赖Dynamo操作系统。这种精细化分工的核心目标只有一个——在有限的电力预算约束下,最大化高价值Token的产出效率。

芯片性能持续攀升,但数据中心的扩张速度却受制于电力供应。

微软掌门人纳德拉直言不讳:当前与其说是芯片短缺,不如说是电力告急。电力供应与就近数据中心的建设进度,直接制约着Token的产出与商业化进程。Meta的扎克伯格也表达了类似观点:只要能确保能源供给,就能构建比现有规模更大的算力集群。

美国科技企业正推动数据中心向全新规模层级跃升。1GW已显得微不足道,在建项目的规划目标正向10GW挺进。然而美国电网基础设施难以跟上这一扩张节奏——公用事业企业对签署超长期购电协议心存顾虑,担心AI浪潮退却后需求骤降;765kV双回路电压走廊的远距离输电容量仅为6-7GW,大型数据中心的选址布局正面临电网容量瓶颈的严峻挑战。

电力供需缺口正逐步演变为政策层面的压力。谷歌向白宫提交的AI发展建议中,首要议题便是电力基础设施;白宫随即在政策文件中明确写入"建设与人工智能创新速度相匹配的电网"。OpenAI更是直言不讳:要在AI领域保持竞争优势,美国每年需新增100GW电力——去年美国实际新增装机容量为51GW,而中国高达429GW。

中国的情形则呈现出不同的特征。

发电总量是美国的近两倍,电网覆盖密度更高,西部地区拥有丰富的光伏、风电等清洁能源。然而,中国的算力基础主要依托国产芯片,后者在能效表现上仍存在一定差距。

华为CloudMatrix 384的案例极具参考价值。与英伟达GB200 NVL72相比,其总算力提升约1.7倍,但全系统能耗却增加了3.9倍。换算下来,每执行1 FLOP的计算任务,CloudMatrix 384比GB200 NVL72多消耗130%的电力。

这一数据意味着,在同等电力预算条件下,国产芯片的Token产出效率更低;若要实现相同的算力规模,就必须消耗更多电力。这种"以电力换算力"的运作模式,在算力需求持续膨胀的大背景下,成本压力将日益凸显。

字节跳动的日均Token调用量,从今年5月的16.4万亿激增至9月的30万亿,呈现翻倍增长态势。当国内互联网巨头的算力需求向百万卡级别迈进时,能效差距将进一步放大Token的单位成本。

政策层面正积极施策以对冲这一成本劣势。甘肃、贵州、内蒙古等电价洼地省份,对采用国产芯片的数据中心给予专项补贴,工业用电价格降至每度0.4元以下,低于美国工业用电均价(约0.65元/度)。这相当于为国产芯片的能效短板提供了一层缓冲机制——以低电价来弥补高能耗带来的成本压力。

然而,这种补贴红利仅限于国内市场。一旦算力服务走向海外,面临全球电价和国际化竞争环境时,就必须依靠芯片能效本身的实质性提升来构建成本竞争优势。

黄仁勋演讲中呈现的Token价值曲线,可以视为中国AI产业现状的一面镜子。

曲线的一端代表高吞吐、低延迟——对应每秒数百乃至上千Token的推理速度,单Token价格可达45美元甚至150美元;另一端则是高吞吐、可容忍延迟——对应每秒约100 Token的推理速度,单Token价格在免费至3美元区间。

中国开源模型目前主要占据后一端市场。Qwen-3等模型实现了规模化供给,日均调用量正快速追赶美国头部模型,但推理速度停留在每秒100 Token左右,价格区间也集中于低端。支撑这一市场定位的是庞大的开源社区和快速迭代的模型能力,但面向实时编程、多智能体协作等高价值场景的算力供给,仍然依赖英伟达及其合作伙伴构建的生态系统。

由此形成了一种差异化分工格局:中国模型在规模上持续扩张,美国模型则在价值层面收割红利。

将Token价值曲线与电力约束叠加分析,竞争的焦点便一目了然。

算力竞争的本质已不再是芯片性能的比拼,而是"单位电力产出的Token价值"的较量。这一转化率由三个核心变量决定:芯片能效(每瓦算力)、架构适配度(吞吐与延迟的平衡)、场景价值(Token的定价)。

美国需要解决的核心问题是电力供给——电网扩容、新能源接入、长距离输电基础设施建设。中国需要应对的挑战则是能效提升——芯片设计优化、先进封装技术、存算协同架构创新。双方起点不同,但目标一致:在电力上限固定的约束条件下,最大限度地提升Token的产出效率。

黄仁勋在演讲中有一个核心论断:未来的数据中心本质上是Token工厂,而定义工厂规模的是电力。这一论断可以进一步延伸:真正定义工厂竞争力的,是将一度电转化为多少美元Token的能力。

对于中国AI产业生态而言,接下来需要直面并回答的关键问题是:

当Token价值持续向低延迟场景倾斜时,当前盘踞在高吞吐一侧的模型和算力,能否实现向上迁移?

迁移的实现路径,究竟是芯片能效的追赶突破,还是场景价值的重新挖掘与定义?

这两个问题的最终答案,将直接决定中国AI在全球产业分工中的战略位置。