MiniCPM5-1B:重塑端侧AI智能密度新高度
2026年5月26日,面壁智能携手清华大学及OpenBMB开源社区,共同推出面向端侧部署的文本基座大模型 MiniCPM5-1B。该模型参数量为1B,专为终端设备场景设计。
依据官方公布数据,MiniCPM5-1B 在 Artificial Analysis(AA)榜单中斩获17.9分,在2B以下开源模型中表现优异。相比之下,Qwen3.5-2B 得分为16.3分。
在知识问答、数学推理、代码生成及工具调用等评测维度上,MiniCPM5-1B 相较于 Qwen3.5-0.8B、LFM2.5-1.2B-Thinking 等同规模模型展现出明显性能优势。
值得关注的是,尽管该模型参数量仅为 Qwen3.5-2B 的一半,但在部分基准测试中仍实现了相当的性能水平。开发团队提出“密度定律”观点,认为单位参数的智能表现正迅速提升。
MiniCPM5-1B 基于标准 Transformer 架构构建,经 INT4 量化后体积约0.5GB,这一特性使其非常适合在资源受限的终端设备上运行。
部署环境支持:
GPU 环境:支持 FP16 精度推理
CPU 环境:可通过 ArcLight 推理框架实现纯 CPU 推理
浏览器环境:支持 WebAssembly 运行时,可直接在浏览器中运行
根据项目文档,该模型可部署于移动设备、个人电脑等多种硬件平台,对硬件配置要求较低。
MiniCPM5-1B 训练采用分级数据治理策略。开发团队将预训练数据按质量划分为 L0 至 L4 五个层级,并针对不同层级实施差异化的清洗与筛选方案。
OpenCSG 开源数据集的应用
在训练阶段,MiniCPM5-1B 引入了 OpenCSG 社区提供的开源数据集。这些数据集为模型在特定领域的能力奠定了坚实基础。研究团队在此基础上开展了数据合成工作,主要聚焦三大方向:
通用知识与推理:合成知识问答与推理任务数据
代码能力:构建多语言代码数据集
工具调用:设计多步骤任务场景数据
项目同时开源了 Ultra-FineWeb-L3、Ultra-FineWeb 和 UltraData-Math 等数据集,供研究社区使用。
MiniCPM5-1B 的基础模型采用 ForgeTrain 训练框架。据官方介绍,ForgeTrain 是一个由 AI 辅助生成的训练框架,其代码主要由 AI 工具生成。在 H100 硬件上,该框架训练速度较英伟达 Megatron 框架快约10%。
这一案例体现了 AI 辅助软件开发在实际生产环境中的可行应用。
MiniCPM5-1B 的后训练采用 RL(强化学习)+ OPD(On-Policy Distillation)技术组合:
训练流程:
使用200B tokens 进行深度思考 SFT(监督微调)
使用200B tokens 进行混合思考 SFT
针对数学、代码、问答、写作等领域训练专用 RL 教师模型
通过 OPD 技术将教师模型能力蒸馏至单一模型中
性能提升:技术报告显示,该技术路线在数学、代码和指令遵循任务上使平均得分提升16个百分点,同时显著降低超长回复频率(减少29个百分点)。
MiniCPM5-1B 采用标准 LlamaForCausalLM 架构,兼容主流推理引擎,无需定制内核。
支持的推理框架:Transformers、vLLM、SGLang、llama.cpp、Ollama、LM Studio、MLX、ArcLight 等
支持的微调框架:TRL + PEFT、LLaMA-Factory、ms-swift、unsloth、xtuner 等
项目提供详尽的部署与微调文档,以及配套 Agent Skills 脚本,助力开发者快速上手。
项目开源了基于 MiniCPM5-1B 的桌面助手应用,展示了1B 参数模型在端侧场景的应用潜力。该应用支持 Apple Silicon、NVIDIA GPU 和 CPU 多种运行环境,可与 Cursor、Claude Code 等开发工具集成,并支持 LoRA 适配器进行个性化定制。
MiniCPM5-1B 采用 Apache-2.0 开源协议,模型权重、训练数据集和部署方案均已开源。可通过 HuggingFace、OpenCSG 等平台获取。
技术意义:
MiniCPM5-1B 的发布反映了端侧 AI 模型的发展趋势:通过优化训练方法与数据质量,小参数模型在特定场景下已具备实用价值。该技术路线降低了 AI 应用部署门槛,使更多设备能在本地运行语言模型,无需依赖云端 API。
随着训练技术进步及开源数据集(如 OpenCSG)的丰富,1B 参数规模模型性能仍有提升空间。此类模型特别适合对隐私、延迟、成本敏感的应用场景。
关于 OpenCSG
OpenCSG 是全球领先的开源大模型社区平台,致力于构建开放、协同、可持续的生态体系。AgenticOps 是由 OpenCSG(开放传神)提出的人工智能领域 AI 原生方法论,是 Agentic AI 的最佳落地实践与核心方法论。其核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同与高效复用。