标签

面壁智能破局:600亿参数模型仅用8G内存,国产算力领跑端侧AI

发布时间:2026-05-26 09:36来源:微信阅读:6

通常情况下,运行一个8B参数的大模型大约需要16GB显存,参数规模越大,对显存资源的消耗就越严峻,这也推高了硬件成本。不过,现在出现了一种新技术,能让显存需求骤降6倍,同时尽量维持原有的性能水平。这两年全球都在争夺这一前沿技术,而我国凭借国产算力优势,已率先取得突破。该技术能把模型压缩到3B以内,性能保留率高达97%;配合MoE架构,未来只需8G内存的手机就能运行600亿参数的大模型。这一惊人的技术突破背后有何奥秘?

传统大模型通常依赖高精度的数值来存储权重,每个权重的可选数值非常丰富,虽然精度高,但非常消耗显存。相比之下,三值量化采用了一种极致精简的策略,将权重的取值范围压缩到仅3种,对应着1.58‑bit的编码方式。

通俗地讲,普通模型的权重就像是一张高清全彩照片,而三值量化则将其简化为只有黑白灰三种颜色的图案。虽然这看起来会大幅降低效果,但近年来的研究表明,模型权重中存在大量冗余信息,只要合理分配这三种取值,就能保留绝大多数核心性能。

在2026华为鲲鹏昇腾开发者大会上,面壁智能交出了一份重量级的技术答卷。这次推出的BitCPM‑CANN,是面壁智能联合清华大学、OpenBMB开源社区共同研发的三值大模型系列。它的意义远不止于推出一款新模型,更是在全球范围内创造了三项前所未有的突破:

🔴首次在华为昇腾芯片上实现了端到端三值大模型的全流程训练。以往公开的三值模型都依赖于英伟达GPU完成,国产算力平台从此拥有了专属的三值训练能力。

🔴首次在昇腾生态下完成了8B规模大模型的训练。此前昇腾平台上的低比特训练仅限于小规模验证,而这次直接推出了0.5B、1B、3B、8B四个档位的模型,全面适配手机、电脑等各类终端场景。

🔴首次完成了与全精度模型的全方位对标测试。通过常识、阅读理解、学科知识、数学推理四大类共11项任务的测评,1B‑8B版本的性能保留率稳定在95.7%‑97.2%。

97.2%的性能保留率意味着,在ARC、CMMLU、GSM8K等权威测试中,这款三值模型与同规格全精度MiniCPM4之间的差距,甚至小于不少全精度模型之间的性能差异,其中3B版本的性能保留率最高。

更重要的是,这一成果并非停留在理论层面,而是可以直接落地应用。BitCPM‑CANN全尺寸版本现已开源,0.5B至8B的所有档位都可以直接下载和部署复现。

随着AI应用逐步从云端走向各类终端,轻量化的端侧大模型正成为智能硬件的核心竞争力。手机、PC、车载设备等终端场景,都急需体积小、性能强、显存占用低的AI模型。未来赛道的竞争关键,不在于盲目追求大模型,而在于能否实现模型的轻量化和可落地部署。

为什么面壁智能能持续领跑端侧大模型赛道?答案不仅在于BitCPM‑CANN技术本身,更源于企业长期坚持的差异化布局。

自创立以来,面壁智能就专注于模型效率的优化。当国内大多数团队都在争相研发超大参数模型时,它潜心研发底层训练框架BM‑Train,核心攻克如何利用更少的算力资源训练出高性能模型,为后续的技术突破打下了坚实基础。

在1.58‑bit三值量化技术的布局上,面壁智能也走在了行业共识之前。在许多团队还质疑低比特技术的可行性时,它就率先确定了技术路线,先在GPU环境中完成了整套训练流程的验证,然后再完整适配并迁移到昇腾算力平台。BitCPM‑CANN不仅仅是简单的模型芯片适配,而是将成熟的训练体系、优化思路和工程能力完整落地到国产算力生态中。

在模型产品方面,旗下的MiniCPM系列端侧大模型在GitHub上收获了超过3万个Star,在Hugging Face平台上的累计下载量突破了3000万次,是全球极具影响力的国产开源端侧模型。

关于人工智能百人会

人工智能百人会(简称“AI百人会”)是一个面向人工智能领域的跨学科、跨行业、跨部门及跨所有制的中立开放交流平台和新型智库。

目前已汇聚了包括人工智能顶级院士科学家、2025年度AI人物、科技巨头AI掌舵者、独角兽创始人、央国企、上市公司及各相关领域产业巨擘领军者在内的70多位高级顾问/顾问,其企业市值/估值总计超过13.5万亿元!AI百人会还广泛链接了100+高校院所、300+平台机构、5000+科创企业与30000+专家的生态资源,构建了AI+领域的顶级智库与资源枢纽。

未来,AI百人会致力于打造AI+全生命周期生态服务系统,深入推进“人工智能+”行动落地;总结AI中国经验,形成AI中国方案,共享AI中国智慧,为国际社会提供更多AI公共产品。同时,这也将助力构建更适宜发展新质生产力的新型生产关系,为推动智能向善和人类命运共同体的发展注入新的活力。