标签

2026年AI芯片终局:Token经济取代算力,HBM成新核心

发布时间:2026-05-01 07:19来源:微信阅读:7

如果把这次AI浪潮拆解开来,你会发现一个正在发生的根本性转变:衡量价值的核心,不再仅仅是GPU的算力本身,而是“单位成本能产出多少Token”。

本文试图解答市场长期困惑的一个问题——为何每一代GPU对HBM的需求几乎注定呈指数级增长?更重要的是,为何这种增长不会像过去那样中途停顿?这也是我长期看多三星和SK海力士的理论依据(凭借此观点,近一个月本人美股收益率达78%)。

一、被忽视的第一性原理

在当前架构下,AI推理的本质可简化为一句话:

Token吞吐量 ≈ HBM容量 × HBM带宽

这并非经验之谈,而是基于系统结构推导出的硬性约束。

换句话说:GPU的上限,不再由算力单独决定,而是被HBM的两个维度“锁死”。

二、为何过去的内存显得无足轻重?

理解当下,需先回溯至CPU时代。

在那个阶段,产业核心KPI只有一个:性能。 CPU不断通过提升频率、超标量执行、乱序执行等手段去“跑得更快”。

而内存(DDR)在体系中的角色,实则非常边缘。

为何如此?

第一,CPU擅长“掩盖延迟”。通过多级缓存、寄存器重命名、超大乱序窗口等机制,将内存依赖尽可能隐藏。

第二,绝大多数负载根本不缺带宽。无论是本地应用还是云端任务,DDR带宽长期处于“过剩”状态。

结果便是:即便内存速度翻倍,对CPU性能的提升往往不足20%。

这直接导致一个现实:从DDR3到DDR5,技术迭代跨度长达十多年,容量增长也极为温和——十年大约增长3倍。

本质上,DRAM在CPU时代只是“配角”:其升级对核心KPI几乎没有决定性影响。

三、AI时代:KPI被彻底重塑

进入生成式AI时代,一切皆变。

GPU不再围绕“算力跑分”,而是聚焦两个指标:• 单位成本的Token产出(核心商业指标) • Token生成速度(用户体验指标)

这便是所谓的“Token经济学”。

在此框架下,系统优化的目标变为一条曲线:在吞吐量与速度之间,尽可能逼近最优边界。

NVIDIA提出的“AI工厂”概念,本质就是一件事:以最低成本,产出最多Token,同时尽可能快。

四、关键转折:从单卡到系统级“Token工厂”

在早期单卡GPU时代(batch size≈1),逻辑很简单: • Token吞吐 ≈ HBM带宽

但进入类似NVL72这类系统架构后,一切变得复杂: • 72个GPU + 多CPU协同 • 推理从“单线程”变为“系统级并行”

此时,Token吞吐被拆解为两个变量:

Token吞吐 = 批处理规模 × 单用户Token速度

五、首个瓶颈:HBM容量

为何Batch Size受限?

因为每个请求都会占用一块KV Cache,这部分数据必须常驻HBM。

随着Batch增加:

于是得到一个刚性约束:

Batch Size的上限,本质上取决于HBM容量

可将其理解为机场摆渡车:

车太小,再多人也得分批运,吞吐上不去。

六、第二个瓶颈:HBM带宽

再看单用户Token速度。

在大模型的decode阶段,每生成一个Token,都需要:

而这些操作的瓶颈,不在算力,而在数据搬运速度。

于是得到第二个结论:

Token生成速度 ≈ HBM带宽

继续沿用之前的比喻:

即使车很大(容量高),门太窄(带宽低),整体效率仍然很差。

七、将两者结合

现在可以得到一个更清晰的表述:

Token吞吐 = Batch Size × Token速度 ≈ HBM容量 × HBM带宽

这便是AI推理时代最核心的硬件公式。

也意味着一件至关重要的事:

若Token吞吐要“每代翻倍”,那么HBM容量 × 带宽的乘积,也必须同步翻倍。

八、为何这次“周期不会重演”?

市场争议的焦点在此:

历史上,DRAM也是周期性产品—— 需求上涨 → 厂商扩产 → 供给过剩 → 周期下行

那HBM是否会重蹈覆辙?

关键在于,此次需求结构截然不同。

过去:

现在:

只要AI系统仍在追求更高吞吐:

这是一种由供给侧被动驱动的需求,而非需求侧自发波动。

九、软件能否改变这一切?

常见误区是:“软件优化能降低对HBM的需求。”

这在逻辑上站不住脚。

原因很简单:

软件优化 ≠ 可以停止硬件进步

就像CPU一样:

否则就没有商业价值。

GPU亦是同理:

无论软件如何优化,Token吞吐这一KPI必须持续提升。

只要目标不变: • 对HBM容量的需求不会下降 • 对HBM带宽的需求也不会下降

十、真正的变革:HBM登台亮相

CPU时代,内存是配角。 AI时代,HBM成为“天花板”。

它不再是锦上添花,而是决定系统上限的关键变量。

甚至可以说:

GPU的竞争,本质上正转化为HBM能力的角逐。

十一、最后的问题

当需求被“物理规律”锁定为指数增长后,故事仅剩一个悬念:

过去三十年,存储行业反复上演同一剧本—— 在繁荣中扩产,在扩产中崩盘。

那么这一次——

当HBM成为AI时代的刚性基础设施,

供给侧的三大玩家,还会不会再次将自己拖入周期的深渊?

关注我,我们一起在大部队前进的路上埋伏。

这里是《逻辑与常识》,用逻辑看市场,用常识做投资。

若这篇文章对你有帮助,转发给同样在投资路上摸索的朋友。