中国AI要走自己的节拍
中国人工智能(AI)公司深度求索(DeepSeek)星期五(4月24日)在社媒平台宣布,全新系列模型DeepSeek-V4的预览版已正式发布,并同步开源。一年多前,这家公司曾凭借一款低成本推理模型震动全球,性能被认为可与美国竞争对手相媲美。(法新社档案照)
中国人工智能(AI)公司深度求索(DeepSeek)推出最新旗舰AI模型预览版后,中国央视旗下新媒体账号《玉渊谭天》发文指出,当中国国产晶片开始在具体场景中接住原本由外国晶片承担的计算任务,企业就能不再依赖某些特定进口型号,并称中国AI更需要活在自己的节奏里。
玉渊谭天星期天(4月26日)凌晨在微信公众号发布题为《沉默的DeepSeek,和不被定义的中国大模型》的文章。文中表示,在国外主流大模型平均91.4天迭代一个版本的时代,DeepSeek的“静默”在不少人看来几乎就是落后,甚至意味着掉队。
文章继续写道,沉默的DeepSeek让人很不适应;2025年初的突然走红、以更少算力换来更好性能、打破美西方制造的“算力焦虑”。这些标签让它的意义早已不只是一家公司的单款产品。
文章称,此次DeepSeek与中国科技巨头华为昇腾国产晶片体系实现深度适配,并不让人意外。文章进一步写道,去年8月DeepSeek发布DeepSeek-V3.1时就宣布采用UE8M0 FP8 Scale参数精度,并特别说明这一数据格式是为即将推出的下一代国产晶片所设计。
文章接着称,软件主动去适配硬件特性,本质上就是为国产晶片“量身定做”;其背后的难度远超想象,需要大量改写调用晶片的软件代码,才能让它在各个环节都与目标系统保持兼容。
文章还提到,当国产晶片开始在具体场景中承接原本由外国晶片负责的计算任务时,企业便不必再依赖某一特定进口型号。
文章指出,中国大模型若想真正实现自主,就必须形成软硬件一体化的协同能力。DeepSeek-V4模型在适配昇腾晶片后,实现了高吞吐、低时延的推理部署。“这既是技术上的新尝试,也是我们在软硬件协同领域向前迈出的一步信号”。
文章称,今年初,智谱GLM-5也宣布完成与七家主流中国国产晶片平台的深度适配,可在国产算力集群上稳定运行。在大模型训练环节,也已经出现了“纯国产”的实践样本。一些企业的大模型,训练过程同样基于国产算力体系完成。
文章引述科技与战略风云学会副会长陈经的分析称,这意味着一套国产软硬件协同的AI研发生态正在逐步成形。
文章最后写道,当人们讨论中国AI企业时,真正讨论的并不只是企业本身,更是一个行业,以及其背后所代表的发展路径。“率道而行,端然正己。中国AI,更需要活在自己的节奏里”。
DeepSeek星期五(4月24日)在社媒平台公布,全新系列模型DeepSeek-V4的预览版本已正式上线并同步开源。官方表示,V4能够处理长达百万字的超长上下文,在智能体能力、世界知识和推理表现上,位居中国及开源领域前列。
V4按模型规模分为“Pro”和“Flash”两个版本,分别对应“专家模式”和“快速模式”。DeepSeek称,V4-Pro在世界知识评测中明显领先其他开源模型,但仍略逊于谷歌顶尖闭源模型Gemini-Pro-3.1。
华为同日发文称,昇腾一直同步支持DeepSeek系列模型,此次通过双方“芯模技术紧密协同”,实现昇腾超节点全系列产品对V4系列模型的支持。
大多数主流AI模型都在英伟达晶片上完成训练和运行。美国外交关系协会中国与新兴技术高级研究员麦奎尔(Chris McGuire)发文分析,DeepSeek这次没有像以往那样公开提及V4的训练成本或使用晶片数量,很可能是因为训练所用晶片属于美国晶片巨头英伟达最先进的Blackwell晶片,而这款晶片已被美国禁止对华出口。