轻松读懂AI算力发展三阶段
什么是AI算力发展三阶段?
就是从数据传输快,到数据存储快,再到数据处理快。
第一阶段,数据传输快。
2023年为了解决数据传输快的问题,光模块变得热门,为什么热门?因为AI算力在大规模建设服务器集群,服务器之间需要频繁交换数据,传统方式使用普通铜电线搭配400G以下的低速光模块传输。传输速度慢、发热严重、带宽上限低,远距离传输时信号衰减明显,完全无法满足AI超大流量数据交换的需求。
所以第一阶段就是要打通服务器之间的通道,解决数据传输拥堵的问题。于是将电传输转为光纤传输并搭配800G、1.6G高速光模块,光模块相当于翻译器,把服务器计算出的电信号转为光信号通过光纤以光速传输,另一台服务器收到后再转回电信号,其优势在于光纤带宽大、速度接近光速、发热少、几乎无信号损耗,相当于直接把服务器之间的数据小道拓宽成高速八车道,彻底解决了传输拥堵问题,因此高速光模块供不应求。
第二阶段,数据存储快。
解决了数据传输快的问题,机器内部又出现新瓶颈。GPU、显卡运算速度极快,但普通内存条的读取速度跟不上,当GPU快速处理大量数据时,内存条迟迟无法响应,显卡只能闲置等待,昂贵的算力被浪费,于是进入第二阶段,数据存储快。
因此存储变得热门,为什么热门?因为传统方式使用显卡搭配平铺摆放的DDR内存条,内存与GPU之间通过主板走线连接,距离远、数据通道窄,数据调取速度远跟不上显卡运算节奏。
于是采用HBM堆叠高速内存,将多片内存芯片叠在一起,通过微型通孔连通内部,这样能大幅加宽数据通道,再通过封装技术直接贴在GPU旁边,缩短显卡获取数据的距离,存取速度直接提升10倍以上,先进封装技术因此被推到前台。
第三阶段,数据处理快。
满足数据传输快和数据存储快,才能实现数据顺畅处理、快速计算,这就是AI的三阶段。
那么接下来第四阶段?这是未来趋势,按现有趋势推演,第四阶段一定是光电共封装CPO,在现有基础上,即使将GPU和HBM叠在一起,仍存在两大问题。
第一,服务器插大量独立光模块,电信接头过多,功耗极高,电费会直接压垮算力成本。
第二,即使芯片内部数据运行再快,芯片外发数据仍需经过普通电路接口,速度仍有上限。要解决这个问题,需将光模块直接嵌入芯片封装内部,光纤接口和GPU焊在同一底座上,这样功耗直接减半,速度再翻倍,服务器能堆叠更多HBM。
所以下一阶段一定是光电共封装相关产业被推到前台,虚拟AI最终形态一定是存算一体。
注:
共封装光学(Co-packaged Optics,CPO)是一种先进的光电集成技术,其核心在于将光引擎(光芯片)与交换芯片或计算芯片通过先进封装技术(如2.5D/3D封装)集成在同一基板上,从而极大缩短电信号传输距离 。此举旨在解决人工智能、高性能计算等场景下,传统可插拔光模块面临的功耗高、带宽密度受限及信号延迟等瓶颈 。CPO技术可显著降低系统功耗、提升传输带宽与能效,例如其方案每个端口功耗降幅约70%,被视为下一代数据中心光互连的关键发展方向,是光模块技术向更高集成度演进的下一代形态 。
CPO概念于2018年被正式提出 。随着AI算力需求驱动,CPO正从技术验证阶段走向产业化,被视为AI算力基础设施升级的关键技术之一 。2026年,台积电宣布其硅光整合平台COUPE预计在当年进入量产,这被行业视为CPO落地的关键里程碑 。同年,CPO技术已进入量产阶段,但大规模商用仍面临散热管理、制造良率、可维护性及标准化等挑战,预计将在超大规模数据中心场景率先应用 。英伟达、博通等厂商已推出商用产品并开始向客户出货 [,国内也已形成较为完整的产业链,多家企业进行了相关布局。