AI 自训模型问世！面壁小钢炮成本降一成，性能碾压同尺寸竞品

发布时间：2026-05-27 07:29阅读：12

面壁智能最新一代“小钢炮”正式亮相。

5 月 25 日，面壁智能携手清华大学及 OpenBMB 开源社区，共同推出了 MiniCPM5-1B。该模型仅含 1B（10 亿）参数，却在权威评测榜 Artificial Analysis（AA）上斩获 17.9 分的高分，一举超越所有参数量在 2B 以下的模型，即便是参数翻倍的 Qwen3.5-2B 也甘拜下风。

更小却更强，这再次印证了面壁曾发表于 Nature 的密度定律：大模型的智能密度大约每 3.5 个月就能翻一番。

面壁“小钢炮”系列模型向来以参数小巧、能量巨大著称，每一款都极具竞争力。

值得一提的是，MiniCPM5-1B 这一基础模型，竟然是由 AI 亲自打造的训练框架所培育出的全球同尺寸最优基座模型。

面壁智能深耕端侧模型，确不负“小钢炮”之名。自 2024 年 2 月以来，每一代小钢炮都致力于同一目标：以更少的参数，创造出超越体量的卓越成绩。

2024 年 2 月，初代 MiniCPM 问世，凭借 2B 参数在多项主流评测中击败了法国热门模型 Mistral-7B，越级媲美 Llama2-13B。

经 Int4 量化后，其内存占用仅 2GB，已能流畅运行于手机端。当时行业正盲目追求大参数，面壁却反其道而行，坚持将模型做小、做强。

同年 9 月，MiniCPM 3.0 发布，参数量为 4B，性能超越 GPT-3.5-Turbo-0125，可对标多款 7B 至 9B 参数模型。量化后同样仅需 2GB 内存，即可胜任工具调用、代码解释及长文本处理等任务。

面壁将这一代称为端侧 ChatGPT 时刻，意味着 4B 参数的模型在手机上便能展现出 GPT-3.5 级别的表现。

2025 年 6 月，MiniCPM4.0 上线，提供 8B 和 0.5B 两种规格。其中 8B 版本依托自研 CPM.cu 推理框架，在极限场景下实现最高 220 倍提速，常规场景也有 5 倍提升；0.5B 版本则继续演绎以小博大的精彩。

同年 8 月，多模态版本 MiniCPM-V 4.5 开源，其 8B 参数版本性能超越 72B 模型，成为行业首个具备高帧率视频理解能力的多模态模型。

2026 年 2 月，MiniCPM-o 4.5 发布，拥有 9B 参数，支持全双工多模态实时流机制，实现看、听、说同步进行。

5 月 11 日，MiniCPM-V 4.6 发布，凭借 1.3B 参数登顶同尺寸多模态榜单。

两年多来，面壁小钢炮参数日益精简，能力却愈发强劲，每一代都在刷新端侧模型的性能上限。个个都是小参数、大能量的代表。

这一代的主角，正是 MiniCPM5-1B。

其 1B 参数仅约为 GPT-3 的百分之一，甚至是许多主流开源模型的十分之一或更少。面壁利用如此迷你的模型，在 AA 榜单上取得了 17.9 分，超过了 Qwen3.5-2B 的 16.3 分。参数减半，分数反而更高。

具体而言，MiniCPM5-1B 在知识储备、数学推理、代码推理及工具调用等维度上，全面超越了同尺寸的基座模型，包括 Qwen3.5-0.8B、LFM2.5-1.2B-Thinking 等。

在 AA 小尺寸模型榜单中，MiniCPM5-1B 以 17.9 分位居榜首，Qwen3.5-2B 得分为 16.3 分。一个 1B 参数的模型，稳稳站在了 2B 参数规模的最顶端。

大模型的智能密度正以约每 3.5 个月翻番的速度持续跃升。3 个月前，Qwen3.5-2B 还是 2B 规模的最优解；3 个月后，MiniCPM5-1B 仅用一半参数便实现了超越。

更小的模型承载了更高的智能密度。面壁曾联合清华大学在 Nature 上发表研究，基于对 51 个主流大模型的严谨回测，揭示了这一规律：从 2023 年到 2025 年，大模型智能密度以每 3.5 个月翻倍的速度增长。

1B 模型之所以强大，关键在于训练数据的高质量。

在 MiniCPM5-1B 的训练过程中，面壁构建了一套分级数据治理体系，将预训练数据按质量从低到高划分为 L0 至 L4 五个等级，每一级都对应着严格的清洗、筛选和质量控制标准。

与其用海量低质数据“灌”出一个模型，不如用精选的高密度数据“养”出一个模型。在 1B 参数规模下，每一条训练数据的质量都直接决定了最终性能的上限。

在此体系之上，研究团队针对三个关键方向开展了大规模高质量预训练数据合成：高知识密度中文网页语料、高知识密度英文网页语料以及高质量数学合成语料。三个方向精准发力，成效显著。

高质量合成数据集 Ultra-FineWeb-L3 也将随模型一同开源，供社区使用与研究。

https://huggingface.co/collections/openbmb/ultradata

这一点值得特别强调：面壁每次发布模型都会将训练数据一并开源，这在行业内并不多见。模型开源已不稀奇，数据也开源才是真正的开源精神。

MiniCPM5-1B 的 Base Model 版本，是由面壁即将发布的 AI 训练框架 ForgeTrain 在国产芯片上完成预训练的。

ForgeTrain 是全球首个完全由 AI 编写的生产级大模型训练框架，其全部代码均由 AI 生成，人类工程师实现了零代码介入。

在英伟达 H100 上，ForgeTrain 的训练速度超越了英伟达自家的 Megatron 框架，快了约 10%，这意味着训练成本下降了 10%。

一个由 AI 编写的训练框架，培育出了全球 2B 以下参数规模中综合性能最优的基座模型。

AI 制造 AI，已经开始持续产出可验证且性能领先的成果。

Anthropic CEO Dario Amodei 曾预言 2028 年 AI 能编写 AI，而面壁通过 ForgeTrain 与 MiniCPM5-1B 的组合，给出了一个超前的答案。

这一方向被称为递回归智能（RSI，Recursive Self-Improvement），即 AI 自我改进、自我进化的能力。ForgeTrain 证明了这条路径切实可行，且产出结果经得起公开榜单的严格检验。

MiniCPM5-1B 几乎能在任何设备上运行。经 INT4 量化后，其权重仅占 0.5GB，占用空间甚至小于一部短视频。

其运行环境的兼容性也极为广泛。

若有 GPU，可直接运行 FP16，性能拉满。

若只有 CPU，面壁联合清华大学、OpenBMB 开源了自研 CPU 推理框架 ArcLight，专为纯 CPU 环境深度优化，无需显卡也能流畅对话。

https://github.com/OpenBMB/ArcLight

面壁对 MiniCPM5-1B 的定位非常明确：零门槛端侧模型，不挑硬件、不挑平台、不挑用户。只要你想跑，它就一定能跑起来。

在微调方面，支持 Llama_factory、ms_swift 等主流微调框架。

在推理方面，适配 SGLang、vLLM、llama.cpp、ollama、Hugging Face、ArcLight 等多种推理框架。

此外，还提供了配套的安装技能包。如果你在使用 Claude Code 或类似的 AI 编程工具，可以直接让 AI 帮你完成环境配置和部署，实现用 AI 装 AI，连一行命令都不用自己敲。

https://github.com/OpenBMB/MiniCPM/tree/main/skills

1B 参数的模型能做什么？

面壁给出了一个生动有趣的应用示例：AI 桌宠。

https://www.youtube.com/watch?v=Ee0slMW8SEk

它可以跑在你的手机或电脑上，无论何时何地、有网无网，都能提供贴心陪伴。

不需要昂贵的 GPU 集群，也不需要云端 API，一台普通笔记本或一部手机就足够了。

端侧 AI 真正令人激动之处，不在于把云端大模型的能力打折后塞进小设备，而在于让小尺寸模型本身就足够强大，强到能独立驱动真实应用。

MiniCPM5-1B 现已全面开源，涵盖模型权重、训练数据集与部署方案。

更小的参数、更高的智能、更低的门槛，面壁小钢炮又向前迈进了一大步。

参考资料：

https://modelscope.cn/models/OpenBMB/MiniCPM5-1B

https://huggingface.co/openbmb/MiniCPM5-1B

https://github.com/OpenBMB/MiniCPM

https://github.com/OpenBMB/MiniCPM-Desk-Pet

← 上一篇：2026汉诺威工博会收官:AI全面融入制造全链路,中企700家亮相彰显国际竞争力下一篇：领导力 | AI浪潮冲击下管理者何去何从？揭秘不可替代的核心能力 →