标签

清华携手华为昇腾:AI大模型训练内存占用锐减六成

发布时间:2026-05-25 15:48来源:新浪新闻阅读:6

快科技5月24日报道,当前AI算力的核心痛点已从显卡转移至存储介质,特别是国内在高端HBM内存方面存在短板,因此各类优化方案层出不穷。近期清华大学的一项研究成果显示,其在华为昇腾平台上成功将内存占用压低了六倍。

面壁智能、清华以及 OpenBMB 团队共同推出了 BitCPM-CANN,这标志着首个基于华为昇腾 NPU 打造的端到端 1.58 比特(三元)大模型训练平台问世。

该系统采用了独特的三元量化算法,将模型参数压缩至 -1、0、1 三个数值状态,不仅使显存占用减少了 6 倍,同时也有效降低了能耗。这是因为复杂的浮点乘法运算被高效的加减法所替代。

虽然量化通常会导致精度损失,但该技术的表现相当出色。团队对比了 0.5B 至 8B 不同参数规模的模型与全精度 MiniCPM4 的表现,其中 1B、3B 和 8B 的三元版本分别保持了原版模型 97.1%、97.2% 和 95.7% 的性能。

0.5B 小参数模型的性能损失相对较高,但也维持在 90.1% 的水平。

在速度方面,损失微乎其微。在昇腾 910B 芯片平台上,全精度模型的吞吐量为 155TFLOP/S,三元量化版本为 148TFLOP/S,性能损耗仅为 4.5%。

尤为重要的是,该系统完全基于昇腾平台原生开发,实现了端到端运行,且开源可复现。用户无需担忧,可直接部署任意规模的模型。

这项技术的意义不仅在于增强国产 AI 平台实力,更关键的是减少了对 HBM 等昂贵存储芯片的依赖。回溯谷歌的 TurboQuant 技术,也曾将内存用量压缩 6 倍,曾导致三星、SK 海力士、美光等厂商股价大幅跳水。

当前内存市场行情严峻,价格高企且产能受限,导致缺货涨价持续蔓延。改变这一局面不能仅靠外部厂商,国内企业亟需提升内存和闪存产能,同时通过技术优化降低内存虚高用量。

编辑:宪瑞