中国人工智能发展迎来新一轮热潮
美国在人工智能领域对中国的领先优势,已降至一年多以来的最低点。2025 年 1 月,深度求索推出 DeepSeek R1,搅动了全球人工智能竞赛,这一冲击让美国资本市场蒸发掉 1 万亿美元市值。芯片巨头英伟达股价单日一度暴跌 17%,纳斯达克综合指数单日下滑 3.1%。美国投资者恐慌的原因不仅是中国人工智能模型性能出色,更在于相关技术全部免费开放。不过市场的震荡很快平息。此后,全球资本市场估值愈发绑定人工智能兼具颠覆性与高盈利性的预期。
如今,国内各大实验室在通用大模型赛道再次给美国竞争对手带来巨大压力。6 月 13 日,北京智谱 AI 实验室推出全新大模型 GLM 5.2,宣称 “让所有人离前沿智能更进一步”。这是迄今为止国内自研综合能力最强的大模型,调用成本不足 Anthropic 最新模型 Fable 5 的十分之一。和国内其他主流大模型一样,支撑 GLM 5.2 运行的模型权重参数已全部对外开源。
近几周,美国企业深陷人工智能使用成本暴涨难题,部分企业人均使用成本高达数千美元,不少公司甚至开始为模型文本处理量设置专项预算。而 6 月 12 日,特朗普政府出台限制政策,禁止非美国用户使用 Fable 5,Anthropic 随即关停了全球所有外部访问权限。前沿顶尖人工智能的使用权,首次完全由美国政府政策左右。多重因素叠加,促使全球用户开始寻找美国大模型之外的替代方案。GLM 5.2 性能强劲、使用成本低廉,且不受美国政府政策管控,成为众多用户的优选。
首先看模型综合性能。行业研究机构人工分析(Artificial Analysis)将 GLM 5.2 评为市面上综合实力最强的开源大模型。在全部模型综合排行榜中,GLM 5.2 位列第四,仅次于 OpenAI 的 ChatGPT 5.5,领先谷歌 Gemini。这款模型的表现超出行业所有人预期。今年年初,国内开发者普遍悲观,认为国产模型至少要到 2030 年才能追上美国顶尖水平。智谱发布新品后,埃隆・马斯克在社交平台 X 发文称,他预计中国最快明年初就能追上当下全球顶尖人工智能的性能。对此智谱联合创始人唐杰回应:“不用等那么久。”
和此前 DeepSeek 发布时引发美股剧烈波动不同,此次 GLM 5.2 问世,美国资本市场反应平淡。一部分原因是当下很难客观、精准评判国产大模型的真实实力。人工分析机构通过数十套标准化基准试题对 GLM 5.2 打分评估,以此衡量模型逻辑与理解能力。整体性能上美国企业依旧保有优势:在各类基准任务平均表现中,Fable 5 综合能力比 GLM 5.2 高出约 17%。另一个关键衡量维度是研发追赶周期:一款综合实力对标 GLM 5.2 的美国闭源模型,今年 2 月才推出,双方研发周期仅相差四个月。
但实际上,美国的技术领先周期可能远不止四个月。挪威智库挪威国防研究院研究员哈瓦德・特维特・伊勒表示,绝大多数开源模型(其中以国产模型居多)在公开基准测试里的分数普遍高于非公开私有测评。公开测评的试题全部对外公布,而企业内部私有测评标准全程保密。在 GLM 5.2 发布前,伊勒博士的研究显示:国产模型在公开测评中落后美国模型 4 至 6 个月,但在企业私有测评中,美国的领先幅度几乎翻倍,达到 8 至 10 个月,相关数据详见文中图表。美国政府 5 月发布的一份调研报告,也得出了相近的技术差距结论。伊勒博士提出一个观点:国内实验室似乎在无意间出现 “应试训练” 倾向,针对性适配公开测试题目。
目前两套私有测评体系的测试结果,都印证了这一现象:一套名为 WeirdML 的测评专门考察复杂推理、非常规机器学习任务,GLM 5.2 在此落后美国模型约 7 个月;另一套 SimpleBench 侧重常识判断,通过迷惑性题目检验模型基础认知,GLM 5.2 整整落后一年。不过这一规律并非绝对。人工分析 6 月 19 日推出一套全新测评,模拟职场办公场景,包括整理杂乱文件、辨析矛盾信息等实务工作,GLM 5.2 不可能提前针对这套全新试题专项训练,最终成绩却超越仅发布两个月的 ChatGPT 5.5。伊勒博士解读,这类结果说明美国的整体技术优势依旧稳固,但同时也证明,中美人工智能的技术差距并没有像部分人预判的那样持续拉大。
GLM 5.2 最让人意外的突破在于,它攻克了以往国产模型普遍短板的任务类型。过往国产大模型擅长数学、代码这类有标准答案的领域,但面对开放式问题、需要长期独立逻辑判断的场景,表现往往不尽如人意。这一短板背后,是国内科研团队面临的核心瓶颈:高端芯片出口管制,导致实验室用于训练超大模型的算力供给不足。因此国内厂商更多把资源投入后训练阶段,通过微调适配特定场景任务;行业还存在一种说法,部分厂商借助 “模型蒸馏” 技术,抓取美国现有模型数据完成优化迭代。
抛开国产模型真实性能存在的争议,再来对比中美模型的实际使用成本。Deepseek V4 大模型输出百万字符仅收费 0.87 美元,而 Anthropic Fable 5 处理同等字符收费高达 50 美元。在美国本土,各大企业人工智能调用成本失控,这类低价国产模型吸引力持续攀升。票据服务商 Ramp 的数据显示,6 月大量美国企业开通深度求索付费服务;有消息称微软正考虑在旗下核心 Copilot 智能助手中接入这家国内实验室的模型。但 “国产人工智能成本更低” 这个大众普遍认知,其实存在很大误区。
尽管国产模型性能持续提升,算力利用效率却普遍偏低。佐治亚理工学院杜正团队本月更新的研究报告显示:完成完全相同的任务,Deepseek模型消耗的文本处理字符量是 OpenAI 竞品的 23 倍,才能输出同等质量答案。因此对比模型成本不能只看单字符单价,要综合完成完整任务消耗的总字符成本。以软件工程专项基准测试为例,综合总消耗量核算后,GLM 5.2 的实际使用成本反而高于 Anthropic、OpenAI 的竞品模型。
除性能、综合成本外,当下人工智能用户最看重的第三大核心指标是使用稳定性。智谱选择在 6 月 13 日北京时间 17 点 21 分发布 GLM 5.2,恰好是特朗普政府要求 Anthropic 封禁海外用户权限的次日。智谱联合创始人唐杰表示:“我们坚持彻底开放的发展路线。” 他同时批评美方设置各类外部技术壁垒,Anthropic 与美国政府出台的限制政策,让海外企业使用美国大模型随时面临权限关停风险。
国内绝大多数大模型均采取开源模式,用户可下载权重部署在本地硬件运行,不受海外企业、他国政府管控。但风险是双向的,未来美国政府也有可能出台政策,限制本国企业使用中国国产人工智能模型。目前美国国会两个委员会正在调查本土科技企业引入国产大模型的行为。而国产模型自身的稳定性短板同样突出:算力资源紧缺,高峰期极易出现服务卡顿、系统中断。
人工智能全球竞赛持续提速,各国监管机构都要直面全新的数据安全、国家安全挑战,美中两国都有可能出台突发限制性政策。Fable 5 因性能顶尖直接触发白宫管制政策,而目前国产模型暂未遭遇同等严苛的跨境监管限制,侧面说明其综合实力尚未达到让美方高度警惕的程度,这也是现阶段国产模型整体仍落后于美国竞品的佐证。■
美国牛市已进入疯狂阶段
沃伦・巴菲特的股东信合集是一本难得的佳作
谁该赢得本届世界杯?