AI推理新王现身：整片晶圆造芯，OpenAI豪掷200亿，英伟达受冲击？

发布时间：2026-05-11 22:32阅读：18

昨夜观看了《荒野心智观察》B站视频，内容极具价值，但技术细节较为密集。现将重点梳理如下：

大家好。

AI领域近日传来重磅消息：一家名为Cerebras的芯片企业，几乎已晋升为OpenAI的“专属”推理芯片供应商。OpenAI不仅向其抛出200亿美元的大单，其高管团队更亲自注资，实现深度捆绑。

你或许会疑惑：英伟达的GPU不是所向披靡吗？OpenAI为何要“另辟蹊径”？

答案仅四个字：AI推理。

今日，我们用通俗语言，剖析这场正在上演的“算力博弈”。

---

一、AI下半场：从“死记硬背”转向“现场作答”

AI能力可分为两个阶段：

· 上半场：训练。犹如学生疯狂刷题、背诵课本，主要依赖算力（GPU的强项）。

· 下半场：推理。犹如学生步入考场，现场审题、即时作答。速度与响应时间才是核心。

例如，当你向AI提出复杂问题，若它思考10秒才回应，你早已失去耐心。低延迟（瞬间作答）是推理的关键命门。

那为何推理容易迟缓？症结在于“内存墙”。

二、何为“内存墙”？——数据搬运的拥堵困局

可将AI芯片设想为一位顶级大厨：

· 计算单元 = 厨师的双手，越灵活越好。

· 数据（模型参数） = 食材与菜谱。

· 内存 = 存放食材的冰箱。

推理时，厨师需不断从冰箱取用数据。但冰箱距离灶台较远，搬运耗时。这便是“内存墙”：计算极快，取数过慢，拖慢整体效率。

计算机内存在四层“冰箱”，距离越远速度越慢：

1. SRAM（片上缓存）：灶台旁的调料架，速度极快，但容量极小（百兆级）。成本极高（单个SRAM单元需6个晶体管）。

2. HBM（高带宽内存）：厨房内的冰箱，速度快且容量大，是主流方案。

3. SSD（固态硬盘）：小区便利店，速度显著下降。

4. HDD（机械硬盘）：郊区仓库，速度极慢，基本弃用。

英伟达的GPU正受困于此墙：其“调料架”（SRAM缓存）过小，大量数据只能存于“冰箱”（HBM）中，反复搬运导致延迟。

而Cerebras的“暴力美学”，便是直接拆毁这堵墙。

---

三、Cerebras的“异类”芯片：整片晶圆即为一颗芯片

Cerebras究竟做了何等疯狂之举？

常规芯片（如英伟达GPU）采用12英寸硅晶圆，先切割成小方块（芯片），再封装测试。因晶圆难免瑕疵，切割后丢弃坏块，保留良品。

Cerebras反其道行之：不切割！将整块300毫米晶圆直接制成一颗芯片！命名为WSE-3（晶圆级引擎第三代）。

这相当于将数百个小披萨，合并成一个巨型披萨。难点在于两点：

1. 光刻机拼接：单台光刻机一次仅能刻画一小块。要在整片晶圆上无缝刻制电路，需多次拼接，边缘对准难度极大，全球仅少数厂商（如台积电）能胜任。

2. 良率地狱：传统思维下，晶圆上只要有一点瑕疵，整张12英寸“巨型芯片”即告报废。

Cerebras的破解之道：冗余设计 + 软件屏蔽。

· 其芯片拥有90万个AI核心（英伟达顶级B200仅数万个）。

· 制造过程中，自动检测并关闭损坏的小核心，利用备用线路直接绕过。

· 结果：即便晶圆存在瑕疵，整颗芯片仍可正常运行。良率竟达到极高水平。

WSE-3 震撼参数概览：

· 制程：台积电5nm

· 晶体管：4万亿个（英伟达B200约2080亿个）

· 面积：46,225 平方毫米（如人脸大小，是英伟达芯片的58倍）

· 片上内存（SRAM）：44GB —— 注意，这不是“冰箱”，而是堆成山的“调料架”！

四、为何WSE-3推理极速？——以SRAM碾压HBM

英伟达方案：计算核心 + 微小SRAM缓存（几兆字节）+ 外挂HBM（数百GB）。数据在HBM与核心间反复搬运。

Cerebras方案：将全部模型参数（如44GB以内）直接载入芯片上的SRAM！

这意味着什么？

· 零数据搬运：数据近在计算核心“怀中”，存取时间几乎为零。

· 带宽惊人：英伟达最先进HBM带宽约8 TB/s，而WSE-3内部SRAM带宽高达21 PB/s —— 是英伟达的2000余倍！

打个比方：

· 英伟达：一位超级大厨，但厨房在隔壁楼，每次做菜需奔跑取食材（高延迟）。

· Cerebras：将整个厨房（食材+灶台）浓缩至一个灶台，厨师伸手即得所有物品（极低延迟）。

因此，在推理任务中，尤其追求“极速首字响应”（TTFT）的场景，Cerebras完胜英伟达。

---

五、偏科生VS全能冠军：Cerebras与英伟达如何抉择？

既然Cerebras如此强悍，为何未取代英伟达？

因其是极致偏科生；英伟达则是全能冠军。

· 英伟达 (NVIDIA)：优势在于通用性与生态。

· CUDA生态：数百万开发者，软件库极为丰富。想在AI领域做任何事（训练、推理、图形、科学计算），CUDA均有现成工具。如同Windows系统，人人会用。

· 训练能力：训练大模型需海量算力灵活调度，英伟达互联技术（NVLink、InfiniBand）成熟，可轻松连接数万张GPU。Cerebras在此方面较弱。

· Cerebras：优势在于推理的极低延迟。

· 其软件栈较为“偏科”，主要针对自身硬件优化。开发者移植模型需使用专用编译器，远不如CUDA便捷。

· 扩展性（Scale-out）：连接数百颗WSE-3无压力，但连接数万颗？不如英伟达方案成熟。

因此，分工明确：

· 训练大模型 → 选用英伟达（生态完善，普适性强，普及度高）。

· 推理，尤其需极低延迟 → 引入Cerebras（让AI回答如人类对话般自然）。

你甚至可在英伟达上训练模型，再将其部署于Cerebras进行推理——两者互不冲突。

---

六、OpenAI的“算力解耦”阳谋

这便解释了OpenAI为何死心塌地绑定Cerebras。

OpenAI不愿被英伟达锁定。其目标是：不同场景，启用不同专家芯片。

· 高端训练 → 继续依赖英伟达。

· 低延迟推理 → 采用Cerebras WSE-3。

· 多元化替代 → 引入AMD Instinct MI450。

· 自研网络协议 → 联合其他厂商推动开放标准（如UALink等）。

OpenAI对Cerebras不仅是客户，更是：债权人（提供10亿美元贷款）、投资人（持有认股权证）、高管个人跟投、以及年度200亿美元采购大单的深度盟友。

简言之：OpenAI不愿为英伟达“打工”。它欲将芯片供应商降级为“场景化模块供应商”，自身掌控AI基础设施命脉。

---

总结

· AI下半场，推理为王，低延迟是核心。

· 内存墙是推理的物理瓶颈，核心矛盾在于“数据搬运过慢”。

· Cerebras WSE-3以“整片晶圆造芯片”的激进方式，将超大SRAM直接堆叠于计算核心旁，彻底消除搬运延迟，推理速度碾压英伟达。

· 但它是偏科生，英伟达是全能冠军。训练与通用计算仍需依赖英伟达的CUDA生态。

· 未来是“专业分工”时代：训练用英伟达，推理结合Cerebras等专用芯片，多元算力共存。

英伟达虽强大，但围剿已启。最大受益者将是我们每一位AI用户——因为AI的回答，将愈发“脱口而出”。

← 上一篇：中国AI领域投资监管：安全底线与开放发展的平衡之道下一篇：揭开AI的神秘面纱：它不是思考，是在玩文字接龙 →