AI竞争核心:从模型排名到实际应用
模型排名很热闹。
今天你第一,明天我第一。每当新模型发布,跑分结果刷屏;每当新版本上线,朋友圈又开始问:谁超过谁了?
但如果把 AI 竞争只看成排行榜,这件事就看小了。
真正的战场,不在模型排名上,而在另一张更朴素、也更残酷的表上:每天有多少人调用它?多少企业把它接进流程?多少工厂、银行、医院、学校、政务系统,把它从“演示”变成“日常”?
排名决定的是脸面。
调用量决定的是国运。
华为金融系统部 CTO 郑俊在凤凰湾区财经论坛上提到一个判断:中美 AI 行业竞争中,双方在模型层面的差距已经很小;他引用斯坦福最新报告的数据说,中国 AI 模型整体水平仅落后美国 2.7%。
这个数字本身不必神化。
排名有排名的口径,Arena 有 Arena 的偏差,任何单一指标都不能代表全部能力。美国顶尖闭源模型在长链推理、代码、工具调用、复杂代理任务上,仍然保持强势;中国模型在算力、芯片、生态收入上,也并不轻松。
但 2.7% 的真正意义不在于“已经反超”。
它说明一件事:模型能力的绝对差距,已经小到无法单独决定胜负。
过去的 AI 竞争,像百米赛跑。谁先冲线,谁就是新闻。
现在更像一场持久的工业战。模型能力只是枪的准星,真正要看的是:弹药补给、训练体系、前线密度、后勤成本、以及能不能把这把枪发到足够多的人手里。
一个模型如果只在排名上漂亮,却没有进入真实业务,它只是样品。
一个模型如果单项指标不是第一,但每天被海量调用、被无数团队改造、被无数场景磨损,它就开始变成生产资料。
AI 一旦变成生产资料,竞争就不再只是实验室的竞争,而是国家系统的竞争。
郑俊还提到,自今年 2 月以来,中国模型的调用量持续碾压美国模型。类似趋势在公开平台数据里也能看到:OpenRouter 与 a 16 z 的 100 万亿 Token 使用研究显示,开源模型在 2025 年持续增长,到年底接近总使用量的三分之一;其中中国开源模型从很低的基数一路上升,在部分周达到接近 30% 的总使用份额,DeepSeek、Qwen 等模型贡献明显。
36 氪英文站转述的公开数据也给过一个更锋利的切面:今年 2 月某些周,中国模型 Token 调用量首次超过美国模型;一周内中国模型达到 4.12 万亿 Tokens,美国模型为 2.94 万亿 Tokens,随后一周中国模型继续升至 5.16 万亿 Tokens。
这些数字不代表全世界,也不能直接等同于全部生产部署。
但它们至少说明:开发者正在用脚投票。
模型排名问的是:“谁更聪明?”
调用量问的是:“谁更常被用?”
这两个问题看似相近,实际差很远。
一个国家的 AI 能力,不是把最聪明的模型供在玻璃柜里,而是让它流进千行百业:
银行风控每天调用它,客服系统每天调用它,代码平台每天调用它,工厂排产每天调用它,医生写病历、老师备课、企业做投标、城市做调度,都开始调用它。
这时,Token 就不再只是技术账单。
它变成一种新的工业耗材。
AI 的关键不只是模型参数,而是调用、场景、反馈和工程迭代能不能转成飞轮。
谁消耗得起,谁调度得动,谁能把消耗转化为效率提升,谁才真正进入下一阶段。
很多人看中国模型,容易陷入一个误区:既然美国闭源模型仍然强,那中国模型是不是只能打“便宜牌”?
这个问题问反了。
在 AI 真正进入产业之后,“便宜”不是弱点,便宜是扩散能力。
如果一个模型很强,但调用成本高、部署门槛高、企业不敢大规模接入,它就像昂贵的精密仪器,只能放在少数中心实验室。
如果一个模型能力接近、价格足够低、权重开放、适配方便,它就像电机、螺丝、传感器,会被普通企业反复购买、拆解、改造、嵌入。
中国制造业当年不是靠每一颗螺丝都全球最先进赢的,而是靠规模、成本、供应链、工程师密度和迭代速度,把复杂产品打成了大规模工业能力。
AI 也可能走同样的路。
美国的优势,是高端模型、资本、云、芯片和全球开发者生态。
中国的机会,是把模型变成便宜、耐用、可部署、可替换、可国产算力适配的基础件。
一个企业不怕模型不是排名第一。
它怕的是接进去以后成本失控,数据出不去,算力排不上,接口老变,出了问题没人兜底。
所以真正的竞争不是“谁的模型更像神”。
而是“谁的模型更像水、电、路、网”。
调用量要变成国运,不是自动发生的。
它至少要穿过三道门。
调用量只有穿过算力、电力、流程和制度,才会从热闹数据沉淀为国家能力。
第一道门,是算力和电力。
AI 调用不是空气。每一次推理背后,都是芯片、机房、网络、冷却、电力、调度系统。没有稳定、便宜、可扩展的算力,调用量只是短期冲高。
这也是为什么 Brookings 的研究把中美 AI 竞争描述为“全栈竞争”:芯片、算力基础设施、基础模型、应用场景,是一条链,不是几个孤立环节。中国单颗芯片仍有差距,但正在用集群系统、国产芯片适配、云服务和场景牵引去补短板。
第二道门,是行业流程。
AI 真正有价值,不是写一段漂亮文案,而是改掉一个流程。
金融系统里,它要进风控、投研、客服、合规。
制造系统里,它要进质检、排产、设备维护、供应链预测。
政务系统里,它要进材料流转、政策问答、基层服务。
教育和医疗里,它要进备课、随访、病历、辅助诊断,但又必须有边界、有责任、有审计。
如果 AI 只停留在聊天窗口,它最多是工具。
如果 AI 嵌进流程,它才是生产力。
第三道门,是制度和反馈。
调用量越大,越会产生新的问题:数据安全、版权、幻觉、责任、审计、监管。中国已经有大量生成式 AI 服务完成备案,也在推进人工智能健康发展相关立法。这个方向看似慢,实则重要。
因为大规模应用不是靠激情维持,而是靠制度降低不确定性。
企业敢不敢接,政府敢不敢用,行业敢不敢上,关键不是模型发布会多漂亮,而是出了问题有没有边界,出了事故有没有追责,数据流动有没有规则。
没有规则,调用量会变成风险。
有规则,调用量才可能沉淀为国家能力。
中美 AI 竞争,不能简单写成“谁赢谁输”。
美国仍然拥有全球最强的一批模型公司,最厚的资本市场,最成熟的云服务,最强的高端 GPU 供应链,以及最会把 AI 产品卖成订阅收入的商业体系。
这些都是硬实力。
中国也有自己的结构性优势:更大的产业现场,更密集的工程师供给,更强的制造业改造需求,更完整的应用场景,更愿意围绕成本和可部署性做极限优化。
所以这场战争有两个指标。
一个叫天花板:最强模型能强到哪里。
一个叫地板面积:足够好、足够便宜、足够稳定的模型,能铺到多大的经济现场。
美国在天花板上仍然领先。
中国真正要争的,是地板面积。
如果一个模型每天被几百万开发者试用,但没有进入产业,它只是技术现象。
如果它进入了上百万家企业、数千万个岗位、数亿次流程调用,它就变成了基础设施。
基础设施的厉害之处,不是看起来先进,而是离不开。
电网不是因为酷才重要。
高速公路不是因为新才重要。
支付系统不是因为发布会精彩才重要。
它们重要,是因为社会运行已经把它们当成默认前提。
AI 也是一样。
未来真正有国运意义的,不是某个模型在排名上领先三个月,而是整个社会是否把 AI 变成默认能力。
说真正战场不在排名,不等于排名不重要。
排名仍然是能力信号。没有足够强的模型,调用量可能只是低价流量;没有持续进步的底座,产业落地也会遇到天花板。
但排名只能告诉我们“这把刀够不够锋利”。
它不能告诉我们:
刀有没有量产?
有没有配到一线?
有没有进入训练?
有没有被后勤保障?
有没有形成战法?
AI 的国家竞争,最后比的不是一把刀,而是一整套铸刀、配刀、用刀、修刀、换刀的体系。
这就是为什么调用量重要。
调用量背后,是价格,是生态,是算力,是开发者,是场景,是企业愿不愿意把自己的流程押上去。
调用量越大,反馈越多;反馈越多,模型越知道真实世界哪里难用;真实世界的问题越多,工程体系越会被逼着进化。
这是一个飞轮。
一旦飞轮转起来,排名会反过来被使用场景推着走。
以后看 AI,不要只看谁发布了新模型。
要看谁的模型在被真实调用。
看谁的 Token 消耗,能换来企业效率、产业升级、基础设施自主、公共服务改善。
看谁能把模型从演示厅搬到工厂、港口、银行、医院、学校和基层窗口。
一个国家的 AI 战略,最终不是写在 PPT 里,也不是写在排名上。
它写在调用账单里,写在算力机房里,写在工程师的接口文档里,写在工厂夜班的质检系统里,也写在普通企业敢不敢把流程交给 AI 的那一刻。
模型排名决定掌声。
调用量决定回声。
而能不能把回声变成生产力,变成产业链,变成基础设施,变成下一代国家能力——这才是 AI 真正的战场。
本文归属栏目:火种实验室。