AI能源危机的解药是专用芯片
西德克萨斯的一片田野里坐落着29台喷气发动机。OpenAI的基础设施合作伙伴Crusoe于2024年底至2025年中分两批订购了这些产品。每个机组约产生35兆瓦电力;它们合计产生1吉瓦,输出功率大约相当于核反应堆。
此类投资反映了一种时尚担忧:人工智能对电力的需求会扼杀当前的人工智能热潮——美国会在对人工智能计算需求耗尽之前耗尽电力。
虽然电力确实是近期的运营瓶颈,但芯片中的电力问题将得到解决。
自2022年以来,燃气发电厂的建设成本翻了一番多,达到每千瓦2200至2500美元。像Meta和Microsoft这样的超大规模企业正在收购市场上的所有设备,并将未来几年的数量预留。他们不介意多付电费,这只占总成本的一小部分。紧急的电力需求也通过效率较低的发电方式来满足——例如,船用发动机接线为发电机——一旦电网容量上线,将被替代。
真正的限制是现金和硅。现代人工智能的核心技术是图形处理单元(GPU),即由硅制成的芯片。一吉瓦的英伟达GPU部署成本约为500亿美元。其中,GPU及其连接网络的总额约为350亿美元。其余部分是基础设施:制冷、电力转换以及其他物理设施。发电硬件仅占总额500亿美元中的约25亿美元。
这就引出了实际的限制是什么,以及为什么专用硅即将改变行业格局。
计算机芯片是逻辑的物理化。它们分为两类:单用途芯片,效率极高但灵活性不足;以及通用处理器,能够执行多种任务。笔记本电脑或手机的主要中央处理单元是通用的。许多雷达系统或电信系统中通过光纤传输数据的处理器是单一用途的,这些处理器需要尽可能多的性能。任何通用处理器都付出了巨大的复杂性和功耗税:灵活性的成本是花费100到1000倍于功耗和硅面积的计算。去掉所有这些功能,把硅芯片设计成只做一件事,效率提升就不明显了。这是几个数量级的问题。
比特币挖矿行业已经花了17年时间证明这一现象——专门的芯片可以更高效——因为它只运行一种算法,且该算法极其稳定且定义清晰。人工智能较不成熟;定义前沿的算法在过去几年里每隔几个月就在变化。
2009年,在台式机CPU上进行比特币挖矿约耗费500万焦耳每太哈希,这反映了生成新比特币所需的计算量。如今,由中国科技公司比特曼设计的专用集成电路(ASIC)芯片以约9.5焦耳/太哈赫的速度实现了相同的工作。在同一算法下,这大约是能源效率提升了50万倍。其中一小部分进步来自晶体管的代际改进。
2013年诞生的第一批专用比特币ASIC相对原始。但它们仍能提供约50倍于使用通用芯片的现代最佳采矿的能源效率。结构的简化和专业化,而非晶体管性能的进步,承担了重任。
一家名为Taalas的加拿大初创公司声称正在为大型语言模型设计专用ASIC,这也是ChatGPT、Claude以及许多商业上最重要的AI应用背后的技术。其HC1芯片将大型语言模型转化为单一用途电路,公司称其每瓦性能比当今最佳GPU提升100倍,但存在一些技术限制。
塔拉斯并不孤单。整整一代初创公司正在开发能够在速度、性能和通用性之间做出各种权衡的芯片。整体趋势是趋向更高的专业化和效率,即使是AI生态系统内的狭窄任务也变成数十亿美元的机遇。
领先的人工智能公司,如OpenAI和Anthropic,将被迫设计或委托自己的专用硅片。这一模式——通用芯片用于研发和初步部署,随后是针对固定工作负载的定制硅片——在半导体行业70年的历史中反复上演。专用电路是降低人工智能成本和功耗的明显路径。这种动态对推理尤为重要,因为稳定模型在大规模用户交互中反复使用,而训练——新算法的开发——很可能仍会使用通用芯片。当你作为普通用户与Claude或ChatGPT互动时,你是在使用推理。当Anthropic或OpenAI开发这些模型时,他们是在进行训练。
制造这些专用芯片的工程和技术风险相对较低。量子、生物、光学、模拟和内存计算涵盖了多种风险特征,但它们都承载着远大于数字电路设计的技术风险(在某些情况下甚至是基础科学风险)。本质上,构建数字ASIC是一项广大工程师群体非常熟悉的任务,而其他方法则远未成熟;因此,一家公司在从事光学、模拟、生物或量子计算项目时,无法完成其产品路线图的风险本质上更高。
构建一个只运行单一算法的单一用途ASIC需要昂贵且细致的工程工程,但没有新科学。这种设计和制造并非简单,但被广泛理解,并利用成熟的设计、制造和测试生态系统。这类产品每天都在设计,比如Marvell和Broadcom,而先进半导体工程、台积电(TSMC)以及台湾生态系统的其他公司,也始终以商业规模和良率交付产品。
领先的AI厂商很可能会竞相将AI模型从GPU转移到定制ASIC。该过程每次迭代的成本将达到数千万到数亿美元,但通过降低计算成本,会迅速回本。对最高级模型进行训练和推理会很昂贵。但一旦模型被验证,它就会被冻结在一个单一用途电路上,不运行其他任何电路。
计算量最大的模型可能需要非常大的ASIC,因此可能在网络GPU集群中停留更久,但它们运行的大部分计算实际上涉及对大量较不复杂模型的编排。而这些较不复杂的两年前型号,一旦被集成在ASIC中,成本将大幅下降。制造这些芯片需要12到30个月,会有很大压力——也要经济激励——去想办法加快进度。
当该技术部署时,运行模型所需的成本和时间将大幅降低。这些经济学将迫使人工智能提供商转型为硬件公司。而英伟达,其GPU如今在训练和推断领域占据主导地位,也将被迫玩同样的游戏。
台积电、三星和英特尔这三家全球最先进芯片制造厂的芯片,并非单用途芯片的必需。老旧、成熟的制造工艺通常可以满足需求。选择采用哪种工艺将是一个细致入微的,基于经济性和可用容量。正如最初的单一用途比特币电路证明纯架构能为相对基础的技术带来数量级的电力和速度提升,人工智能也将采用同样的原理。包括中国在内的较不先进的半导体制造设施将成为前沿人工智能计算的可行生产路径。
能源恐慌正在流行,但中期来看不值得担心。解决方案将来自芯片,而非电网。
以上