面壁智能推出AI自研训练框架ForgeTrain:国产AI基础设施的新突破
2026年5月底,国内AI企业面壁智能推出了一款名为ForgeTrain的预训练框架。若仅是又一款训练工具,或许不会引发太多关注。但ForgeTrain的独特之处在于:它是一款完全由AI自主生成的生产级框架。AI辅助编程早已不稀奇。然而,让AI编写用于训练AI的预训练框架,且该框架在生产环境中的性能已超越英伟达的Megatron——这就截然不同了。ForgeTrain的工作原理如下:面壁智能团队在GitHub上运营着一个持续更新的Specification-as-Code代码库,其中使用YAML和Pyth
面壁智能开源ForgeTrain:全球首款AI自研生产级训练框架
AI能否独立编写出真正达到生产标准的大型软件,甚至是大模型训练框架?面壁智能给出了肯定的回答:完全可以。今日,由中关村科学城公司投资的面壁智能携手清华大学及OpenBMB开源社区,正式推出了ForgeTrain。这是全球第一款完全由AI代码生成、无需人工介入的生产级大模型训练框架。它并非实验性的原型机,而是一套能够直接投入商用、创造实际价值的「AI引擎」。在英伟达H100 GPU环境下,ForgeTrain的训练效率比英伟达自研且业界通用的Megatron框架高出10%。这意味着在相同任务场景下,可直接节
全球首例!国产AI自主构建新一代智能模型
2026年5月27日,全球AI领域迎来里程碑时刻!没错,电影中“AI自我进化、自主创造”的场景,如今在中国成为现实!中国AI企业面壁智能正式宣布:全球首个完全由AI自主研发、无需人工编写核心代码的AI模型成功问世!从构建训练框架到产出全新模型,整个流程均由AI独立完成。这不仅是技术上的重大飞跃,更重新定义了全球AI研发的基本范式!核心亮点:AI造AI,全流程闭环(无手写代码)此次突破并非“AI辅助编码”级别的改进,而是建立了一套完整的工业级自动化流程。三大关键组件构成了完美的自主进化体系:ForgeTra
AI自主构建AI:技术闭环的起点
↓↓↓点赞、转发、关注、获取更多AI实战干货!↓↓↓最近我注意到,AI领域发生了一件令人深思的事。不是因为某个模型性能提升,而是一个完整的自动化流程在2026年5月26日被一家中国公司悄然实现。事件核心非常清晰:执行方:面壁智能,联合清华大学与OpenBMB开源社区。成果内容:推出了端侧大模型MiniCPM5-1B,并开放了其训练框架ForgeTrain的源码。(AI独立造出了AI)最引人注目的地方在于ForgeTrain这套框架——这些代码完全由AI自动生成,而该框架又成功训练出新的AI模型。这个过程让
天工AI推百万Token新模型;阿里Qwen3.7-Max代码力超Claude;面壁开源MiniCPM5
—— ·要点速览· ——2、阿里云加速AI出海,发布全新海外AI产品官网Qwen Cloud3、擎朗智能发布小尺寸人形机器人 XMAN-L1,接入豆包、腾讯等大模型更聚焦的科技行业交流群,捕捉每一条科技动态,诚挚邀请创业者、发烧友加入我们。微信扫码进群:最新、最热的科技资讯;最精准的行业资源对接;论坛、沙龙、企业游学门票。作为全球玻璃基板技术的先驱,英特尔早在2023年9月便将其纳入先进封装路线图,指出玻璃基板相比有机材料可提升最高10倍互连密度,是支撑2030年单封装一万亿晶体管目标的关键路径;2026
AI 自训模型问世!面壁小钢炮成本降一成,性能碾压同尺寸竞品
面壁智能最新一代“小钢炮”正式亮相。5 月 25 日,面壁智能携手清华大学及 OpenBMB 开源社区,共同推出了 MiniCPM5-1B。该模型仅含 1B(10 亿)参数,却在权威评测榜 Artificial Analysis(AA)上斩获 17.9 分的高分,一举超越所有参数量在 2B 以下的模型,即便是参数翻倍的 Qwen3.5-2B 也甘拜下风。更小却更强,这再次印证了面壁曾发表于 Nature 的密度定律:大模型的智能密度大约每 3.5 个月就能翻一番。面壁“小钢炮”系列模型向来以参数小巧、能量
AI 日报:大模型调用激增 / 法拉利首辆纯电 SUV 亮相 / 腾讯 ima 全量开放
点击上方关注我们01全球 AI 大模型调用量五连涨OpenRouter 最新公布的数据显示,全球 AI 大模型总调用量已攀升至 28.9 万亿 Token,较上周增幅达 7.4%,这是该指标连续第五周环比增长,直观表明全球范围内大模型的使用需求仍在持续爆发,未见饱和迹象。从国家竞争角度看,中国 AI 大模型表现格外抢眼。上周中国大模型周调用量达到 9.22 万亿 Token,环比激增 19.89%;同期美国大模型周调用量为 4.93 万亿 Token,环比增长 16.27%。就具体模型排名而言,上周全球调
面壁智能破局:600亿参数模型仅用8G内存,国产算力领跑端侧AI
通常情况下,运行一个8B参数的大模型大约需要16GB显存,参数规模越大,对显存资源的消耗就越严峻,这也推高了硬件成本。不过,现在出现了一种新技术,能让显存需求骤降6倍,同时尽量维持原有的性能水平。这两年全球都在争夺这一前沿技术,而我国凭借国产算力优势,已率先取得突破。该技术能把模型压缩到3B以内,性能保留率高达97%;配合MoE架构,未来只需8G内存的手机就能运行600亿参数的大模型。这一惊人的技术突破背后有何奥秘?传统大模型通常依赖高精度的数值来存储权重,每个权重的可选数值非常丰富,虽然精度高,但非常消
国内首个1.58比特端侧大模型开源发布
IT之家5月25日信息,面壁智能携手清华等机构,今日公布并开源其最新低比特大模型成果BitCPM-CANN。 据透露,该模型为我国首个完全基于华为昇腾平台端到端训练并开源的三值(1.51-bit)大模型。从量化计算、训练方法到整体框架,BitCPM-CANN均在昇腾平台原生构建,提供0.5B、1B、3B、8B四种规模,与同规模MiniCPM4全精度系列逐一对比测试,表现卓越。 相较传统BF16精度,BitCPM-CANN在推理时释放约6倍显存优势,同时保持90%-97.2%模型能力保留率。 官方指出,对移
端侧AI新突破:国产技术实现手机运行大模型的高效压缩
一个 8B 参数的大模型,通常需要约 16GB 显存。参数越多,越吃显存,这就是为什么,内存价格一天比一天高。 现在,有一种方法,可以省下 6 倍显存,却几乎不损耗模型性能。 过去两年,围绕这个看似极端的思路,一条全球性的技术竞赛正在成型。而就在这条赛道上,一个完全基于国产算力的方案,刚刚给出了自己的第一个回答。 模型被压到了不到 3B,同时,能力却可以保留 97%,甚至更进一步,如果结合 MoE 架构,未来可以直接在一部 8GB 内存的手机,运行 600 亿参数的大模型。 听上去匪夷所思,怎么做到的?
面壁智能开源首个基于昇腾训练的1.58位端侧大模型
【TechWeb】5月25日,面壁智能联合清华大学、OpenBMB开源社区共同发布了其在低比特大模型训练领域的最新成果——BitCPM-CANN。这是国内首款完全基于华为昇腾算力平台实现的1.53位端侧大模型,该模型在技术上实现了重要突破。在相同设备配置下,该技术展示首次完成,随后已将其完整模型系列向公众开放。据公开信息显示,相比传统BF16精度,该模型在推理过程中节省了约6倍的显存资源,同时模型能力保持在90%至97.2%之间。在相同终端设备上运行时,可承载的模型能力大幅提升,过去需要1/6的内存即可获
广西人工智能学院联手面壁智能举办大模型实战挑战赛
4 月 26 日,广西人工智能学院正式拉开帷幕,开展了聚焦大模型技术与 OpenClaw 应用的实战训练营及创新挑战赛。桂林电子科技大学校长助理王敬宇,以及来自广西人工智能学院、南宁职业技术大学、北京面壁智能科技有限责任公司等单位的related 负责人共同出席了此次活动。王敬宇指出,广西人工智能学院扎根广西、辐射东盟,致力于服务区域数字经济发展,始终将实践能力与创新精神的培养视为人才培育的核心。此次赛事通过与面壁智能及 OpenBMB 开源社区的深度协作,旨在推动学生从理论迈向实践,完成从技术“使用者”
AI 早报:2026年4月9日
Meta 推出闭源大模型 Muse Spark。4月8日,该实验室发布新品,由前Scale AI CEO Alexandr Wang 领衔。该模型在算力大幅降低的情况下,实现了媲美 Llama 4 中型变体的性能,尤其在多模态和医疗领域表现优异。后续将融入 Meta 旗下社交生态,推动股价上涨 6.5%。智谱 AI GLM-5.1 开源登顶。4月8日,该模型开源,拥有 7540 亿参数。它支持长达 200K 的上下文窗口,在 SWE-bench Pro 测试中位列全球第三、国产及开源第一(超越 Claud