标签

AI竞争核心:从模型排名到实际应用

发布时间:2026-05-27 22:19来源:微信阅读:20

模型排名很热闹。

今天你第一,明天我第一。每当新模型发布,跑分结果刷屏;每当新版本上线,朋友圈又开始问:谁超过谁了?

但如果把 AI 竞争只看成排行榜,这件事就看小了。

真正的战场,不在模型排名上,而在另一张更朴素、也更残酷的表上:每天有多少人调用它?多少企业把它接进流程?多少工厂、银行、医院、学校、政务系统,把它从“演示”变成“日常”?

排名决定的是脸面。

调用量决定的是国运。

华为金融系统部 CTO 郑俊在凤凰湾区财经论坛上提到一个判断:中美 AI 行业竞争中,双方在模型层面的差距已经很小;他引用斯坦福最新报告的数据说,中国 AI 模型整体水平仅落后美国 2.7%。

这个数字本身不必神化。

排名有排名的口径,Arena 有 Arena 的偏差,任何单一指标都不能代表全部能力。美国顶尖闭源模型在长链推理、代码、工具调用、复杂代理任务上,仍然保持强势;中国模型在算力、芯片、生态收入上,也并不轻松。

但 2.7% 的真正意义不在于“已经反超”。

它说明一件事:模型能力的绝对差距,已经小到无法单独决定胜负。

过去的 AI 竞争,像百米赛跑。谁先冲线,谁就是新闻。

现在更像一场持久的工业战。模型能力只是枪的准星,真正要看的是:弹药补给、训练体系、前线密度、后勤成本、以及能不能把这把枪发到足够多的人手里。

一个模型如果只在排名上漂亮,却没有进入真实业务,它只是样品。

一个模型如果单项指标不是第一,但每天被海量调用、被无数团队改造、被无数场景磨损,它就开始变成生产资料。

AI 一旦变成生产资料,竞争就不再只是实验室的竞争,而是国家系统的竞争。

郑俊还提到,自今年 2 月以来,中国模型的调用量持续碾压美国模型。类似趋势在公开平台数据里也能看到:OpenRouter 与 a 16 z 的 100 万亿 Token 使用研究显示,开源模型在 2025 年持续增长,到年底接近总使用量的三分之一;其中中国开源模型从很低的基数一路上升,在部分周达到接近 30% 的总使用份额,DeepSeek、Qwen 等模型贡献明显。

36 氪英文站转述的公开数据也给过一个更锋利的切面:今年 2 月某些周,中国模型 Token 调用量首次超过美国模型;一周内中国模型达到 4.12 万亿 Tokens,美国模型为 2.94 万亿 Tokens,随后一周中国模型继续升至 5.16 万亿 Tokens。

这些数字不代表全世界,也不能直接等同于全部生产部署。

但它们至少说明:开发者正在用脚投票。

模型排名问的是:“谁更聪明?”

调用量问的是:“谁更常被用?”

这两个问题看似相近,实际差很远。

一个国家的 AI 能力,不是把最聪明的模型供在玻璃柜里,而是让它流进千行百业:

银行风控每天调用它,客服系统每天调用它,代码平台每天调用它,工厂排产每天调用它,医生写病历、老师备课、企业做投标、城市做调度,都开始调用它。

这时,Token 就不再只是技术账单。

它变成一种新的工业耗材。

AI 的关键不只是模型参数,而是调用、场景、反馈和工程迭代能不能转成飞轮。

谁消耗得起,谁调度得动,谁能把消耗转化为效率提升,谁才真正进入下一阶段。

很多人看中国模型,容易陷入一个误区:既然美国闭源模型仍然强,那中国模型是不是只能打“便宜牌”?

这个问题问反了。

在 AI 真正进入产业之后,“便宜”不是弱点,便宜是扩散能力。

如果一个模型很强,但调用成本高、部署门槛高、企业不敢大规模接入,它就像昂贵的精密仪器,只能放在少数中心实验室。

如果一个模型能力接近、价格足够低、权重开放、适配方便,它就像电机、螺丝、传感器,会被普通企业反复购买、拆解、改造、嵌入。

中国制造业当年不是靠每一颗螺丝都全球最先进赢的,而是靠规模、成本、供应链、工程师密度和迭代速度,把复杂产品打成了大规模工业能力。

AI 也可能走同样的路。

美国的优势,是高端模型、资本、云、芯片和全球开发者生态。

中国的机会,是把模型变成便宜、耐用、可部署、可替换、可国产算力适配的基础件。

一个企业不怕模型不是排名第一。

它怕的是接进去以后成本失控,数据出不去,算力排不上,接口老变,出了问题没人兜底。

所以真正的竞争不是“谁的模型更像神”。

而是“谁的模型更像水、电、路、网”。

调用量要变成国运,不是自动发生的。

它至少要穿过三道门。

调用量只有穿过算力、电力、流程和制度,才会从热闹数据沉淀为国家能力。

第一道门,是算力和电力。

AI 调用不是空气。每一次推理背后,都是芯片、机房、网络、冷却、电力、调度系统。没有稳定、便宜、可扩展的算力,调用量只是短期冲高。

这也是为什么 Brookings 的研究把中美 AI 竞争描述为“全栈竞争”:芯片、算力基础设施、基础模型、应用场景,是一条链,不是几个孤立环节。中国单颗芯片仍有差距,但正在用集群系统、国产芯片适配、云服务和场景牵引去补短板。

第二道门,是行业流程。

AI 真正有价值,不是写一段漂亮文案,而是改掉一个流程。

金融系统里,它要进风控、投研、客服、合规。

制造系统里,它要进质检、排产、设备维护、供应链预测。

政务系统里,它要进材料流转、政策问答、基层服务。

教育和医疗里,它要进备课、随访、病历、辅助诊断,但又必须有边界、有责任、有审计。

如果 AI 只停留在聊天窗口,它最多是工具。

如果 AI 嵌进流程,它才是生产力。

第三道门,是制度和反馈。

调用量越大,越会产生新的问题:数据安全、版权、幻觉、责任、审计、监管。中国已经有大量生成式 AI 服务完成备案,也在推进人工智能健康发展相关立法。这个方向看似慢,实则重要。

因为大规模应用不是靠激情维持,而是靠制度降低不确定性。

企业敢不敢接,政府敢不敢用,行业敢不敢上,关键不是模型发布会多漂亮,而是出了问题有没有边界,出了事故有没有追责,数据流动有没有规则。

没有规则,调用量会变成风险。

有规则,调用量才可能沉淀为国家能力。

中美 AI 竞争,不能简单写成“谁赢谁输”。

美国仍然拥有全球最强的一批模型公司,最厚的资本市场,最成熟的云服务,最强的高端 GPU 供应链,以及最会把 AI 产品卖成订阅收入的商业体系。

这些都是硬实力。

中国也有自己的结构性优势:更大的产业现场,更密集的工程师供给,更强的制造业改造需求,更完整的应用场景,更愿意围绕成本和可部署性做极限优化。

所以这场战争有两个指标。

一个叫天花板:最强模型能强到哪里。

一个叫地板面积:足够好、足够便宜、足够稳定的模型,能铺到多大的经济现场。

美国在天花板上仍然领先。

中国真正要争的,是地板面积。

如果一个模型每天被几百万开发者试用,但没有进入产业,它只是技术现象。

如果它进入了上百万家企业、数千万个岗位、数亿次流程调用,它就变成了基础设施。

基础设施的厉害之处,不是看起来先进,而是离不开。

电网不是因为酷才重要。

高速公路不是因为新才重要。

支付系统不是因为发布会精彩才重要。

它们重要,是因为社会运行已经把它们当成默认前提。

AI 也是一样。

未来真正有国运意义的,不是某个模型在排名上领先三个月,而是整个社会是否把 AI 变成默认能力。

说真正战场不在排名,不等于排名不重要。

排名仍然是能力信号。没有足够强的模型,调用量可能只是低价流量;没有持续进步的底座,产业落地也会遇到天花板。

但排名只能告诉我们“这把刀够不够锋利”。

它不能告诉我们:

刀有没有量产?

有没有配到一线?

有没有进入训练?

有没有被后勤保障?

有没有形成战法?

AI 的国家竞争,最后比的不是一把刀,而是一整套铸刀、配刀、用刀、修刀、换刀的体系。

这就是为什么调用量重要。

调用量背后,是价格,是生态,是算力,是开发者,是场景,是企业愿不愿意把自己的流程押上去。

调用量越大,反馈越多;反馈越多,模型越知道真实世界哪里难用;真实世界的问题越多,工程体系越会被逼着进化。

这是一个飞轮。

一旦飞轮转起来,排名会反过来被使用场景推着走。

以后看 AI,不要只看谁发布了新模型。

要看谁的模型在被真实调用。

看谁的 Token 消耗,能换来企业效率、产业升级、基础设施自主、公共服务改善。

看谁能把模型从演示厅搬到工厂、港口、银行、医院、学校和基层窗口。

一个国家的 AI 战略,最终不是写在 PPT 里,也不是写在排名上。

它写在调用账单里,写在算力机房里,写在工程师的接口文档里,写在工厂夜班的质检系统里,也写在普通企业敢不敢把流程交给 AI 的那一刻。

模型排名决定掌声。

调用量决定回声。

而能不能把回声变成生产力,变成产业链,变成基础设施,变成下一代国家能力——这才是 AI 真正的战场。

本文归属栏目:火种实验室。