清华携手华为昇腾：AI大模型训练内存占用锐减六成

发布时间：2026-05-25 15:48阅读：19

快科技5月24日报道，当前AI算力的核心痛点已从显卡转移至存储介质，特别是国内在高端HBM内存方面存在短板，因此各类优化方案层出不穷。近期清华大学的一项研究成果显示，其在华为昇腾平台上成功将内存占用压低了六倍。

面壁智能、清华以及 OpenBMB 团队共同推出了 BitCPM-CANN，这标志着首个基于华为昇腾 NPU 打造的端到端 1.58 比特（三元）大模型训练平台问世。

该系统采用了独特的三元量化算法，将模型参数压缩至 -1、0、1 三个数值状态，不仅使显存占用减少了 6 倍，同时也有效降低了能耗。这是因为复杂的浮点乘法运算被高效的加减法所替代。

虽然量化通常会导致精度损失，但该技术的表现相当出色。团队对比了 0.5B 至 8B 不同参数规模的模型与全精度 MiniCPM4 的表现，其中 1B、3B 和 8B 的三元版本分别保持了原版模型 97.1%、97.2% 和 95.7% 的性能。

0.5B 小参数模型的性能损失相对较高，但也维持在 90.1% 的水平。

在速度方面，损失微乎其微。在昇腾 910B 芯片平台上，全精度模型的吞吐量为 155TFLOP/S，三元量化版本为 148TFLOP/S，性能损耗仅为 4.5%。

尤为重要的是，该系统完全基于昇腾平台原生开发，实现了端到端运行，且开源可复现。用户无需担忧，可直接部署任意规模的模型。

这项技术的意义不仅在于增强国产 AI 平台实力，更关键的是减少了对 HBM 等昂贵存储芯片的依赖。回溯谷歌的 TurboQuant 技术，也曾将内存用量压缩 6 倍，曾导致三星、SK 海力士、美光等厂商股价大幅跳水。

当前内存市场行情严峻，价格高企且产能受限，导致缺货涨价持续蔓延。改变这一局面不能仅靠外部厂商，国内企业亟需提升内存和闪存产能，同时通过技术优化降低内存虚高用量。

编辑：宪瑞