边缘AI算力存储瓶颈与创新解决方案探析
随着计算重心从云端向边缘迁移,人工智能应用独特的计算需求对存储系统带来了严峻挑战。边缘AI设备,如自动驾驶汽车、智能机器人、AI PC及高端智能手机,在追求高计算吞吐量的同时,必须严格控制功耗、散热和成本。传统的冯·诺依曼架构因计算与存储分离,在处理大规模并行矩阵运算时,大量能量耗费于数据传输而非计算本身,即所谓的“内存墙”与“功耗墙”,这已成为阻碍边缘AI性能提升的关键瓶颈。
生成式AI和大语言模型(LLM)向边缘渗透,使得存储系统的复杂性呈指数级增长。边缘端AI推理主要包含预填充(Prefill)和解码(Decode)两个阶段,前者受计算能力限制,后者则极度依赖存储带宽。因此,单纯提升算力(TOPS)已不足以满足实时推理需求,存储子系统的带宽、延迟和容量必须协同发展。当前,存储方案正从单一DRAM结构转向多层级异构化存储架构。
低功耗双倍数据速率存储器(LPDDR)凭借其高能效和紧凑封装,一直是移动和汽车AI芯片的主流选择。随着AI应用对带宽需求的提升,LPDDR5X已成为旗舰芯片的标准配置。美光(Micron)推出的10.7 Gbps LPDDR5X采用先进的1γ工艺,通过优化信号完整性和降低电压,在提供高带宽的同时,功耗降低约20%。在边缘AI推理中,LPDDR5X的带宽密度直接影响LLM解码阶段的Token生成速率。
对于汽车算力芯片,LPDDR5X的选用不仅关乎性能,还需满足功能安全(FuSa)标准。例如,美光LPDDR5X + DLEP解决方案已获得ISO 26262 ASIL-D认证,确保高性能计算下的数据可靠性。英伟达(NVIDIA)的Thor-X芯片采用256位宽LPDDR5X接口,实现约273 GB/s内存带宽,足以处理L4级自动驾驶所需的庞大数据流。
高带宽存储(HBM)利用3D堆叠和硅通孔(TSV)技术,提供了当前最高的内存带宽,是AI训练加速器的关键组件。HBM3E单堆栈带宽可超过1.2 TB/s。
2024年12月,美国商务部BIS发布《先进计算商品最终规则》,首次将HBM3及更先进的HBM代际纳入出口管制,对中国(含港澳)实施原则不许可(Presumption of Denial)。
国内HBM正加速自主研发,长江存储、合肥长鑫、武汉新芯已在HBM封装和研发方面有所布局。受限于3D堆叠和TSV技术瓶颈,行业预计2026-2027年有望实现量产。
为解决边缘端运行千亿参数大模型时面临的“容量-带宽-成本”困境,存储业界提出了高带宽闪存(HBF)方案。HBF并非简单的NAND或DRAM,它借鉴HBM的3D堆叠理念,通过TSV互联多层3D NAND,并集成高度并行的子阵列架构。
HBF旨在承载LLM推理中的权重数据。由于推理过程主要涉及模型参数的读取操作且数据量巨大,HBF的高读取带宽和超大容量(单堆栈可达512GB)使其成为理想选择。在异构架构中,HBM或SRAM作为高速“热数据”缓存,处理即时运算;HBF则作为“温冷数据”库,存储完整模型参数。这种分层架构实现了性能与成本的最佳平衡,被视为打破边缘AI存储容量瓶颈的关键。
Untether AI的第二代架构“Boqueria”(SpeedAI240芯片)是此路线的代表。该芯片集成238MB片上SRAM,分布于1458个RISC-V内核中,总片上带宽达1 PB/s,能效比高达30 TFLOPS/W,特别适合处理BERT-base等NLP模型。
然而,SRAM的物理限制在于其巨大的面积需求。相同容量下,SRAM所需的硅片面积是DRAM的5到10倍。在边缘芯片尺寸受限的情况下,单纯依赖SRAM难以容纳主流大模型。因此,SRAM中心化芯片通过集成LPDDR5接口(如SpeedAI支持最高32GB外部存储)来平衡扩展性和延迟。
2025年7月,瑞芯微(Rockchip)发布RK182X系列端侧AI协处理器(RK1820与RK1828),这是国内首批将高带宽嵌入式DRAM(eDRAM)与AI算力芯片进行3D堆叠封装量产的产品,为国产边缘AI芯片的存储方案树立了标杆。
RK182X系列定位为“端侧大模型专用AI协处理器”,通过PCIe/USB高速接口与主控芯片协同工作,专注于AI推理算力,将主控从繁重的计算任务中解放出来。以下为两款型号的核心规格对比:
①带宽跃升(10倍):理论峰值带宽达1024 GB/s,远超同级LPDDR5X(约68 GB/s)和NVIDIA Jetson Orin NX(102.4 GB/s),有效突破LLM解码瓶颈,2B大模型TPS超过100 tokens/s。
②功耗优化(降低30%):3D堆叠缩短数据传输路径,将PCB长距离传输转变为芯片间短距离垂直互联,数据搬运能耗减少约30%,尤其适合功耗敏感的边缘设备。
③面积缩减(减少50%):DRAM从PCB平面布局移至芯片垂直堆叠,节约约50%板级面积,降低终端产品体积和BOM成本,利于嵌入式和便携场景集成。
兆易创新与长鑫存储(CXMT)合作开发3D堆叠内存(4层堆叠已成熟,8层在研),并成立青耘科技(持股77.78%)专注于定制化存储方案。瑞芯微负责算力芯片设计与系统集成,兆易创新/青耘科技提供定制化3D堆叠存储,形成了国产算力与存力在端侧的深度协同。
对比其他技术方案,RK182X的3D堆叠eDRAM在带宽上不及HBM,但在成本、功耗和体积上具备显著优势,是典型的“边缘优化型”存储方案。其超高带宽密度精准解决了LLM推理瓶颈,避免了HBM的复杂封装和供应链风险。
当前方案的局限性在于:eDRAM容量(2.5GB/5GB)固定,不适合加载更大模型;PCIe 2.1通道带宽(单通道5 Gbps)可能成为新的瓶颈;作为协处理器,依赖主控SoC进行调度和管理,系统整体设计需协同优化。
RK182X的发布标志着国内厂商在端侧AI存储方案上从“跟随”转向“探索”。其3D堆叠eDRAM的量产,打通了国产算力(RISC-V NPU)与国产存力(兆易/长鑫3D DRAM)的产业链协同,形成了一套可规模化、不依赖海外供应链的端侧大模型推理完整解决方案,具有重要的战略价值。
随着平面DRAM工艺在12nm以下遇到瓶颈,3D-DRAM成为必然趋势,将采用垂直沟道晶体管(VCT)技术。三星计划2025年完成VCT DRAM原型开发,并于2027-2028年量产。对于边缘AI芯片,3D-DRAM意味着在更小的空间内集成更大的工作内存,直接在SoC内部提供容纳大型KV Cache的空间。
在Chiplet时代,单一庞大的SoC正被多个小型功能芯片取代。UCIe(Universal Chiplet Interconnect Express)标准的发布,为不同厂商的计算与存储芯片提供了统一的电气和协议接口。在边缘AI领域,这意味着可根据应用场景灵活配置存储,如高端边缘服务器可连接计算核心Chiplet和HBM Chiplet;成本敏感的工业控制器可连接小型存算一体Chiplet和SOCAMM存储模块。UCIe不仅简化设计,还通过缩短物理连线距离,将封装内数据传输功耗降至最低,进一步缓解了存储墙问题。
边缘AI存储的技术路线选择不仅受物理定律限制,也深受全球半导体供应链影响。2025年至2026年,全球存储市场因AI训练需求剧烈波动。HBM3E生产所需的晶圆产能远高于标准DDR5,促使存储巨头将产线转向AI专用存储,导致边缘端常用DRAM供应极度短缺。
这种“挤出效应”引发了“AI税”:到2026年一季度,通用DRAM价格较2025年底飙升80-90%。这显著提高了边缘设备制造商的存储成本,反过来推动了技术创新。