面壁智能破局：600亿参数模型仅用8G内存，国产算力领跑端侧AI

发布时间：2026-05-26 09:36阅读：11

通常情况下，运行一个8B参数的大模型大约需要16GB显存，参数规模越大，对显存资源的消耗就越严峻，这也推高了硬件成本。不过，现在出现了一种新技术，能让显存需求骤降6倍，同时尽量维持原有的性能水平。这两年全球都在争夺这一前沿技术，而我国凭借国产算力优势，已率先取得突破。该技术能把模型压缩到3B以内，性能保留率高达97%；配合MoE架构，未来只需8G内存的手机就能运行600亿参数的大模型。这一惊人的技术突破背后有何奥秘？

传统大模型通常依赖高精度的数值来存储权重，每个权重的可选数值非常丰富，虽然精度高，但非常消耗显存。相比之下，三值量化采用了一种极致精简的策略，将权重的取值范围压缩到仅3种，对应着1.58‑bit的编码方式。

通俗地讲，普通模型的权重就像是一张高清全彩照片，而三值量化则将其简化为只有黑白灰三种颜色的图案。虽然这看起来会大幅降低效果，但近年来的研究表明，模型权重中存在大量冗余信息，只要合理分配这三种取值，就能保留绝大多数核心性能。

在2026华为鲲鹏昇腾开发者大会上，面壁智能交出了一份重量级的技术答卷。这次推出的BitCPM‑CANN，是面壁智能联合清华大学、OpenBMB开源社区共同研发的三值大模型系列。它的意义远不止于推出一款新模型，更是在全球范围内创造了三项前所未有的突破：

🔴首次在华为昇腾芯片上实现了端到端三值大模型的全流程训练。以往公开的三值模型都依赖于英伟达GPU完成，国产算力平台从此拥有了专属的三值训练能力。

🔴首次在昇腾生态下完成了8B规模大模型的训练。此前昇腾平台上的低比特训练仅限于小规模验证，而这次直接推出了0.5B、1B、3B、8B四个档位的模型，全面适配手机、电脑等各类终端场景。

🔴首次完成了与全精度模型的全方位对标测试。通过常识、阅读理解、学科知识、数学推理四大类共11项任务的测评，1B‑8B版本的性能保留率稳定在95.7%‑97.2%。

97.2%的性能保留率意味着，在ARC、CMMLU、GSM8K等权威测试中，这款三值模型与同规格全精度MiniCPM4之间的差距，甚至小于不少全精度模型之间的性能差异，其中3B版本的性能保留率最高。

更重要的是，这一成果并非停留在理论层面，而是可以直接落地应用。BitCPM‑CANN全尺寸版本现已开源，0.5B至8B的所有档位都可以直接下载和部署复现。

随着AI应用逐步从云端走向各类终端，轻量化的端侧大模型正成为智能硬件的核心竞争力。手机、PC、车载设备等终端场景，都急需体积小、性能强、显存占用低的AI模型。未来赛道的竞争关键，不在于盲目追求大模型，而在于能否实现模型的轻量化和可落地部署。

为什么面壁智能能持续领跑端侧大模型赛道？答案不仅在于BitCPM‑CANN技术本身，更源于企业长期坚持的差异化布局。

自创立以来，面壁智能就专注于模型效率的优化。当国内大多数团队都在争相研发超大参数模型时，它潜心研发底层训练框架BM‑Train，核心攻克如何利用更少的算力资源训练出高性能模型，为后续的技术突破打下了坚实基础。

在1.58‑bit三值量化技术的布局上，面壁智能也走在了行业共识之前。在许多团队还质疑低比特技术的可行性时，它就率先确定了技术路线，先在GPU环境中完成了整套训练流程的验证，然后再完整适配并迁移到昇腾算力平台。BitCPM‑CANN不仅仅是简单的模型芯片适配，而是将成熟的训练体系、优化思路和工程能力完整落地到国产算力生态中。

在模型产品方面，旗下的MiniCPM系列端侧大模型在GitHub上收获了超过3万个Star，在Hugging Face平台上的累计下载量突破了3000万次，是全球极具影响力的国产开源端侧模型。

关于人工智能百人会

人工智能百人会（简称“AI百人会”）是一个面向人工智能领域的跨学科、跨行业、跨部门及跨所有制的中立开放交流平台和新型智库。

目前已汇聚了包括人工智能顶级院士科学家、2025年度AI人物、科技巨头AI掌舵者、独角兽创始人、央国企、上市公司及各相关领域产业巨擘领军者在内的70多位高级顾问/顾问，其企业市值/估值总计超过13.5万亿元！AI百人会还广泛链接了100+高校院所、300+平台机构、5000+科创企业与30000+专家的生态资源，构建了AI+领域的顶级智库与资源枢纽。

未来，AI百人会致力于打造AI+全生命周期生态服务系统，深入推进“人工智能+”行动落地；总结AI中国经验，形成AI中国方案，共享AI中国智慧，为国际社会提供更多AI公共产品。同时，这也将助力构建更适宜发展新质生产力的新型生产关系，为推动智能向善和人类命运共同体的发展注入新的活力。

← 上一篇：国际仲裁AI合规的新挑战与应对下一篇：倒计时！刘森教授直播：AI时代中小学阅读命题新思路 →