重磅！华为昇腾910C完成1.6万亿DeepSeek全参数后训练，国产算力破局

发布时间：2026-06-08 13:36阅读：10

快科技6月7日讯，近期国产AI芯片领域最受瞩目的新闻非此莫属。

6月5日上午，深圳发布官方通报，正式确认了这一振奋业界的消息。据悉，深河院AI训练平台项目组携手哈工大(深圳)、深圳市大数据研究院及华为团队，联合深智城AI算力平台，针对国产算力大模型训练展开联合攻关。依托昇腾910C国产算力集群，成功完成了1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。

消息传出后，国内科技媒体迅速响应。同日，南华早报等海外主流科技媒体也进行了跟进报道，指出这一进展表明在美国制裁不断收紧的背景下，中国半导体行业正努力从单纯的基础AI推理，迈向更为复杂的模型训练阶段。

深圳发布在报道中明确指出，“此次实践为全球第三方机构在国产算力平台上开展该级别模型训练提供了重要参考，同时也证实了国产AI芯片具备支撑世界级超大参数模型训练的能力”。

在我看来，这绝非一次试探性的尝试，而是一次具有里程碑意义的技术突破。它用无可辩驳的工程成果证明了国产AI芯片已经成功跨越了那道最难的技术门槛。

先弄明白这几个概念

许多人只记住了“1.6万亿参数”这个数字，却忽略了“全参数后训练”这六个字的分量。

AI大模型从诞生到可用，主要包含训练和推理两个核心阶段。

推理：运行已训练好的模型来处理用户请求。此过程中模型参数固定，仅利用已学知识生成输出。推理对算力要求相对较低，更看重延迟、吞吐量和能效。这也是国产芯片此前擅长的领域，市场上已有大量应用采用国产推理芯片部署。

训练：通过输入海量数据，持续调整模型内部参数，使模型习得新知识和技能。训练的难度和算力需求与推理不在一个量级，通常需要由数千甚至数万张芯片组成的集群连续运行数周甚至数月。

训练又分为两个关键环节：

预训练：大模型的基础阶段。向模型输入万亿级文本、图像等多模态数据，使其掌握基础语言能力、世界知识和通用逻辑。

后训练：在预训练基础上，通过人类反馈强化学习(RLHF)、监督微调(SFT)等技术，让模型学会遵循人类指令、遵守安全规则、完成特定任务。这是决定大模型实际体验的关键环节。

全参数后训练：指在训练中更新模型全部参数，而非仅更新一小部分。对于DeepSeek-V4-Pro，即需同时调整其1.6万亿参数。相对的是“部分参数微调”，仅更新最后几层或少量适配器参数。全参数训练能最大程度提升性能，但对算力、存储、通信和系统稳定性要求极高。

深圳发布的比喻很形象：若将训练万亿参数AI模型比作解一道超级复杂的数学题，每张计算卡就是一名解题员。他们需分工明确、日夜连轴转，且不能有人偷懒、出错或掉队。

“此前的国产算力更多让大模型‘能用’，即推理部署，好比给模型修了条单行道，输入问题，输出答案。”

而全参数后训练，则是“让模型学会自我反思与调整，相当于在单行道基础上增加了复杂立交桥和多条反馈回路，计算量和通信量瞬间翻倍。”

此外，DeepSeek-V4-Pro采用主流的混合专家(MoE)架构，难度更大。可想象为一个庞大“专家团”，推理时仅激活少数专家回答问题，但训练时所有专家需同时学习并互相通信同步信息。仅专家间数据交换量就是普通模型的几十倍。

这也是为何业内此前普遍认为国产芯片难以承受如此大规模的全参数训练。

此次成功得益于三个实打实的工程突破

面对挑战，团队未搞花哨概念，而是靠三个扎实突破，将不可能变为可能。

其一是“显存拼图”。1.6万亿参数数据量巨大，无法塞入单张卡。团队设计了精密分布式承载方案，将模型如拼图般拆分，精确分配到每张芯片。哪块卡负责哪部分，何时交换数据，都计算精准。

其二是“负载均衡”。MoE模型痛点是忙闲不均。此前国产集群算力利用率低。团队针对MoE优化调度算法，动态分配任务，彻底解决跨卡通信拥堵。

其三是“全程不掉线”。大模型训练最怕中途崩溃。此次训练1500多步，全程无中断报错。背后是一套完整全链路监控和容错体系，是无数个日夜调试的结果。

官方公布数据显示，模型算力利用率超30%，关键训练算子效率提升14%。虽有人觉30%不高，但在该领域已是不错的工业级水平。即便是顶级海外芯片，很多团队实际利用率也仅在40%左右。

比技术突破更宝贵的是我们终于有了自己的练兵场

许多人讨论突破只盯芯片，但我认为最被低估的价值是人才培养。

深河院将此项目视为活生生的课堂，让学生进入真实训练场景，从环境搭建全程参与。

截至目前，已培养42名学生，形成青年教师指导、博士生攻坚、工程团队支撑的完整梯队。这些人非在课本学，而是真刀真枪跑过万亿级模型全流程。他们知问题、懂解决，是国产AI产业最宝贵财富。

许多人说国产AI缺芯片，实则更缺实战经验工程师。大模型训练是工程科学，书本难学，必须亲手跑过。此前无高端平台，年轻人难摸万亿级集群。现在局面终于被打破。

写在最后

当然，我们必须清醒认识国产算力与世界顶尖的差距。单卡性能及软件生态完善度，仍有长路要走。

但此次突破意义非凡，足以强调。它证明在大模型训练这一曾被海外垄断的领域，我们不仅能做，还能做得很好。它为行业注入信心，为路上努力者点亮明灯。

深圳发布最后表示，深河院将联合生态伙伴持续优化集群性能，围绕长文本处理、AI智能体等方向探索，挖掘国产算力潜力。

我相信这只是开始。当越来越多团队用国产芯片训练大模型，生态成熟，国产AI产业必将迎来属于自己的时代。

责任编辑：朝晖

← 上一篇：华为 nova 16 系列首销数据公布，Pro 版销量达上代 170% 下一篇：宝马斩获比利时千台纯电大单创该国企业车队采购纪录 →