面壁智能开源ForgeTrain:全球首款AI自研生产级训练框架
AI能否独立编写出真正达到生产标准的大型软件,甚至是大模型训练框架?
面壁智能给出了肯定的回答:完全可以。
今日,由中关村科学城公司投资的面壁智能携手清华大学及OpenBMB开源社区,正式推出了ForgeTrain。这是全球第一款完全由AI代码生成、无需人工介入的生产级大模型训练框架。
它并非实验性的原型机,而是一套能够直接投入商用、创造实际价值的「AI引擎」。
在英伟达H100 GPU环境下,ForgeTrain的训练效率比英伟达自研且业界通用的Megatron框架高出10%。这意味着在相同任务场景下,可直接节约10%的算力开支。
在华为昇腾系列硬件上,ForgeTrain已成功跑通全流程预训练,验证了其卓越的跨硬件平台适配实力。
此外,面壁智能利用ForgeTrain在华为昇腾芯片上顺利完成了新一代「小钢炮」MiniCPM5-1B模型的预训练工作。评测数据表明,MiniCPM5-1B的综合表现位居全球同尺寸模型前列,在AA榜单中稳居2B参数规模下的榜首。
这标志着,「AI编写框架 → 运行于国产芯片 → 训练出领先AI模型」的完整闭环已彻底打通。
这一系列突破性成果,源于面壁智能提出并落地的全新软件编程范式——Forge Engineering。
大模型能力的每次飞跃,背后都是天文数字般的资源消耗。十万卡集群的投入已接近顶级科技公司的年度现金流,北美电网的新增容量被头部实验室大量预订,高质量文本语料也日益稀缺。若大模型的进步仅依赖砸钱、堆卡,这条路径终将越走越窄。
这是一个关乎大模型未来生死存亡的根本性问题。
一个简化的公式可概括大模型能力的增长逻辑:
大模型年度能力增长=Scaling每代涨幅×研发预算/每代研发成本
Scaling涨幅受理论限制,研发预算受资源制约,唯一能持续撬动的杠杆便是:压低每一代模型的研发成本。
这正是「AI制造AI」的初心所在。全球顶尖实验室已将其视为战略核心——Anthropic AI创始人Dario Amodei视其为AGI时间表最强的加速器,OpenAI和DeepMind也在全力攻关。然而,在「让AI编写大模型底层基础设施」这一最关键节点上,此前的探索均留有空白。
ForgeTrain正是在这一关键空白处实现了决定性突破。AI不仅写出了可用的训练框架,而且其性能与效率超越了人类专家的实现。
Forge Engineering将代码从「通用资产」解绑为按需定制的深度产品——同一份Harness,可在H100上锻造出一种实现,在昇腾上则锻造出另一种截然不同的实现。两份代码均针对各自硬件深度优化,避免了为追求通用性而牺牲性能。
过去,大型软件工程面临无解的权衡:要通用就得抽象,抽象即有损耗;要高效就得定制,定制便失可移植性。Forge Engineering让这一取舍不复存在。通用性保留在Harness的规约中,高性能则体现在每一次的锻造里。
一句话概括「AI制造AI」的战略意义:
一旦「AI研究AI的速率」超越「人类研究AI的速率」,大模型的研发速度将从人力规模的函数转变为算力规模的函数,AGI的实现时间表将被彻底重写。
ForgeTrain预训练的MiniCPM5-1B性能达到全球同级最优,有力证明了「AI制造AI」的可行性。
ForgeTrain已完全开源。面壁智能同步发布:
ForgeTrain框架代码:完整的预训练框架,分别锻造了适配英伟达H100和华为昇腾的两个版本。
Agent Harness:构建ForgeTrain的完整工具链,涵盖评测标准、测试规约及智能体编排方案。任何团队均可借此复现从逐比特对齐到性能反超的全过程。
面壁智能开源的不仅是代码,更是方法论。从MiniCPM系列的端侧高效模型,到如今的ForgeTrain与Forge Engineering,面壁智能探索的核心命题始终未变:如何让每一份算力释放更大价值?
答案愈发清晰——不在于谁资源更多,而在于谁将资源运用得更聪明。
当AI学会锻造自身工具,效率的天花板再次被打破。