AI推理新王现身:整片晶圆造芯,OpenAI豪掷200亿,英伟达受冲击?
昨夜观看了《荒野心智观察》B站视频,内容极具价值,但技术细节较为密集。现将重点梳理如下:
大家好。
AI领域近日传来重磅消息:一家名为Cerebras的芯片企业,几乎已晋升为OpenAI的“专属”推理芯片供应商。OpenAI不仅向其抛出200亿美元的大单,其高管团队更亲自注资,实现深度捆绑。
你或许会疑惑:英伟达的GPU不是所向披靡吗?OpenAI为何要“另辟蹊径”?
答案仅四个字:AI推理。
今日,我们用通俗语言,剖析这场正在上演的“算力博弈”。
---
一、AI下半场:从“死记硬背”转向“现场作答”
AI能力可分为两个阶段:
· 上半场:训练。犹如学生疯狂刷题、背诵课本,主要依赖算力(GPU的强项)。
· 下半场:推理。犹如学生步入考场,现场审题、即时作答。速度与响应时间才是核心。
例如,当你向AI提出复杂问题,若它思考10秒才回应,你早已失去耐心。低延迟(瞬间作答)是推理的关键命门。
那为何推理容易迟缓?症结在于“内存墙”。
二、何为“内存墙”?——数据搬运的拥堵困局
可将AI芯片设想为一位顶级大厨:
· 计算单元 = 厨师的双手,越灵活越好。
· 数据(模型参数) = 食材与菜谱。
· 内存 = 存放食材的冰箱。
推理时,厨师需不断从冰箱取用数据。但冰箱距离灶台较远,搬运耗时。这便是“内存墙”:计算极快,取数过慢,拖慢整体效率。
计算机内存在四层“冰箱”,距离越远速度越慢:
1. SRAM(片上缓存):灶台旁的调料架,速度极快,但容量极小(百兆级)。成本极高(单个SRAM单元需6个晶体管)。
2. HBM(高带宽内存):厨房内的冰箱,速度快且容量大,是主流方案。
3. SSD(固态硬盘):小区便利店,速度显著下降。
4. HDD(机械硬盘):郊区仓库,速度极慢,基本弃用。
英伟达的GPU正受困于此墙:其“调料架”(SRAM缓存)过小,大量数据只能存于“冰箱”(HBM)中,反复搬运导致延迟。
而Cerebras的“暴力美学”,便是直接拆毁这堵墙。
---
三、Cerebras的“异类”芯片:整片晶圆即为一颗芯片
Cerebras究竟做了何等疯狂之举?
常规芯片(如英伟达GPU)采用12英寸硅晶圆,先切割成小方块(芯片),再封装测试。因晶圆难免瑕疵,切割后丢弃坏块,保留良品。
Cerebras反其道行之:不切割!将整块300毫米晶圆直接制成一颗芯片!命名为WSE-3(晶圆级引擎第三代)。
这相当于将数百个小披萨,合并成一个巨型披萨。难点在于两点:
1. 光刻机拼接:单台光刻机一次仅能刻画一小块。要在整片晶圆上无缝刻制电路,需多次拼接,边缘对准难度极大,全球仅少数厂商(如台积电)能胜任。
2. 良率地狱:传统思维下,晶圆上只要有一点瑕疵,整张12英寸“巨型芯片”即告报废。
Cerebras的破解之道:冗余设计 + 软件屏蔽。
· 其芯片拥有90万个AI核心(英伟达顶级B200仅数万个)。
· 制造过程中,自动检测并关闭损坏的小核心,利用备用线路直接绕过。
· 结果:即便晶圆存在瑕疵,整颗芯片仍可正常运行。良率竟达到极高水平。
WSE-3 震撼参数概览:
· 制程:台积电5nm
· 晶体管:4万亿个(英伟达B200约2080亿个)
· 面积:46,225 平方毫米(如人脸大小,是英伟达芯片的58倍)
· 片上内存(SRAM):44GB —— 注意,这不是“冰箱”,而是堆成山的“调料架”!
四、为何WSE-3推理极速?——以SRAM碾压HBM
英伟达方案:计算核心 + 微小SRAM缓存(几兆字节)+ 外挂HBM(数百GB)。数据在HBM与核心间反复搬运。
Cerebras方案:将全部模型参数(如44GB以内)直接载入芯片上的SRAM!
这意味着什么?
· 零数据搬运:数据近在计算核心“怀中”,存取时间几乎为零。
· 带宽惊人:英伟达最先进HBM带宽约8 TB/s,而WSE-3内部SRAM带宽高达21 PB/s —— 是英伟达的2000余倍!
打个比方:
· 英伟达:一位超级大厨,但厨房在隔壁楼,每次做菜需奔跑取食材(高延迟)。
· Cerebras:将整个厨房(食材+灶台)浓缩至一个灶台,厨师伸手即得所有物品(极低延迟)。
因此,在推理任务中,尤其追求“极速首字响应”(TTFT)的场景,Cerebras完胜英伟达。
---
五、偏科生VS全能冠军:Cerebras与英伟达如何抉择?
既然Cerebras如此强悍,为何未取代英伟达?
因其是极致偏科生;英伟达则是全能冠军。
· 英伟达 (NVIDIA):优势在于通用性与生态。
· CUDA生态:数百万开发者,软件库极为丰富。想在AI领域做任何事(训练、推理、图形、科学计算),CUDA均有现成工具。如同Windows系统,人人会用。
· 训练能力:训练大模型需海量算力灵活调度,英伟达互联技术(NVLink、InfiniBand)成熟,可轻松连接数万张GPU。Cerebras在此方面较弱。
· Cerebras:优势在于推理的极低延迟。
· 其软件栈较为“偏科”,主要针对自身硬件优化。开发者移植模型需使用专用编译器,远不如CUDA便捷。
· 扩展性(Scale-out):连接数百颗WSE-3无压力,但连接数万颗?不如英伟达方案成熟。
因此,分工明确:
· 训练大模型 → 选用英伟达(生态完善,普适性强,普及度高)。
· 推理,尤其需极低延迟 → 引入Cerebras(让AI回答如人类对话般自然)。
你甚至可在英伟达上训练模型,再将其部署于Cerebras进行推理——两者互不冲突。
---
六、OpenAI的“算力解耦”阳谋
这便解释了OpenAI为何死心塌地绑定Cerebras。
OpenAI不愿被英伟达锁定。其目标是:不同场景,启用不同专家芯片。
· 高端训练 → 继续依赖英伟达。
· 低延迟推理 → 采用Cerebras WSE-3。
· 多元化替代 → 引入AMD Instinct MI450。
· 自研网络协议 → 联合其他厂商推动开放标准(如UALink等)。
OpenAI对Cerebras不仅是客户,更是:债权人(提供10亿美元贷款)、投资人(持有认股权证)、高管个人跟投、以及年度200亿美元采购大单的深度盟友。
简言之:OpenAI不愿为英伟达“打工”。它欲将芯片供应商降级为“场景化模块供应商”,自身掌控AI基础设施命脉。
---
总结
· AI下半场,推理为王,低延迟是核心。
· 内存墙是推理的物理瓶颈,核心矛盾在于“数据搬运过慢”。
· Cerebras WSE-3以“整片晶圆造芯片”的激进方式,将超大SRAM直接堆叠于计算核心旁,彻底消除搬运延迟,推理速度碾压英伟达。
· 但它是偏科生,英伟达是全能冠军。训练与通用计算仍需依赖英伟达的CUDA生态。
· 未来是“专业分工”时代:训练用英伟达,推理结合Cerebras等专用芯片,多元算力共存。
英伟达虽强大,但围剿已启。最大受益者将是我们每一位AI用户——因为AI的回答,将愈发“脱口而出”。