面壁智能开源ForgeTrain：全球首款AI自研生产级训练框架

发布时间：2026-05-27 19:51阅读：14

AI能否独立编写出真正达到生产标准的大型软件，甚至是大模型训练框架？

面壁智能给出了肯定的回答：完全可以。

今日，由中关村科学城公司投资的面壁智能携手清华大学及OpenBMB开源社区，正式推出了ForgeTrain。这是全球第一款完全由AI代码生成、无需人工介入的生产级大模型训练框架。

它并非实验性的原型机，而是一套能够直接投入商用、创造实际价值的「AI引擎」。

在英伟达H100 GPU环境下，ForgeTrain的训练效率比英伟达自研且业界通用的Megatron框架高出10%。这意味着在相同任务场景下，可直接节约10%的算力开支。

在华为昇腾系列硬件上，ForgeTrain已成功跑通全流程预训练，验证了其卓越的跨硬件平台适配实力。

此外，面壁智能利用ForgeTrain在华为昇腾芯片上顺利完成了新一代「小钢炮」MiniCPM5-1B模型的预训练工作。评测数据表明，MiniCPM5-1B的综合表现位居全球同尺寸模型前列，在AA榜单中稳居2B参数规模下的榜首。

这标志着，「AI编写框架 → 运行于国产芯片 → 训练出领先AI模型」的完整闭环已彻底打通。

这一系列突破性成果，源于面壁智能提出并落地的全新软件编程范式——Forge Engineering。

大模型能力的每次飞跃，背后都是天文数字般的资源消耗。十万卡集群的投入已接近顶级科技公司的年度现金流，北美电网的新增容量被头部实验室大量预订，高质量文本语料也日益稀缺。若大模型的进步仅依赖砸钱、堆卡，这条路径终将越走越窄。

这是一个关乎大模型未来生死存亡的根本性问题。

一个简化的公式可概括大模型能力的增长逻辑：

大模型年度能力增长=Scaling每代涨幅×研发预算/每代研发成本

Scaling涨幅受理论限制，研发预算受资源制约，唯一能持续撬动的杠杆便是：压低每一代模型的研发成本。

这正是「AI制造AI」的初心所在。全球顶尖实验室已将其视为战略核心——Anthropic AI创始人Dario Amodei视其为AGI时间表最强的加速器，OpenAI和DeepMind也在全力攻关。然而，在「让AI编写大模型底层基础设施」这一最关键节点上，此前的探索均留有空白。

ForgeTrain正是在这一关键空白处实现了决定性突破。AI不仅写出了可用的训练框架，而且其性能与效率超越了人类专家的实现。

Forge Engineering将代码从「通用资产」解绑为按需定制的深度产品——同一份Harness，可在H100上锻造出一种实现，在昇腾上则锻造出另一种截然不同的实现。两份代码均针对各自硬件深度优化，避免了为追求通用性而牺牲性能。

过去，大型软件工程面临无解的权衡：要通用就得抽象，抽象即有损耗；要高效就得定制，定制便失可移植性。Forge Engineering让这一取舍不复存在。通用性保留在Harness的规约中，高性能则体现在每一次的锻造里。

一句话概括「AI制造AI」的战略意义：

一旦「AI研究AI的速率」超越「人类研究AI的速率」，大模型的研发速度将从人力规模的函数转变为算力规模的函数，AGI的实现时间表将被彻底重写。

ForgeTrain预训练的MiniCPM5-1B性能达到全球同级最优，有力证明了「AI制造AI」的可行性。

ForgeTrain已完全开源。面壁智能同步发布：

ForgeTrain框架代码：完整的预训练框架，分别锻造了适配英伟达H100和华为昇腾的两个版本。

Agent Harness：构建ForgeTrain的完整工具链，涵盖评测标准、测试规约及智能体编排方案。任何团队均可借此复现从逐比特对齐到性能反超的全过程。

面壁智能开源的不仅是代码，更是方法论。从MiniCPM系列的端侧高效模型，到如今的ForgeTrain与Forge Engineering，面壁智能探索的核心命题始终未变：如何让每一份算力释放更大价值？

答案愈发清晰——不在于谁资源更多，而在于谁将资源运用得更聪明。

当AI学会锻造自身工具，效率的天花板再次被打破。