标签

斯坦福AI指数报告2026:能力飞速增长,评估治理滞后

发布时间:2026-04-24 12:15来源:微信阅读:6

Sha Sajadieh, Raymond Perrault, Yolanda Gil 等人 | 斯坦福HAI | 2026年4月

斯坦福大学人类中心人工智能研究所(HAI)每年编纂AI指数报告,整合政府、学术界与工业界的独立数据,监控AI在九个方面的进步:研发、技术表现、负责任AI、经济、科学、医疗、教育、政策与公众感知。这已是该系列报告的第九份。

报告的核心观点是:AI技术能力的增长速度,已经超越了评估、管理与适应它的所有相关体系。这一差距体现在多个方面:技术测量工具逐渐失灵,监管框架方向不一,劳动力市场结构已经开始调整,而公众与专家对AI的认知存在系统性鸿沟。

2025年,AI能力持续迅猛扩张,但这种扩张并不均衡。

在一些明确定义的任务中,前沿模型已达到或超越了人类基准。谷歌的Gemini Deep Think在国际数学奥林匹克竞赛中斩获金牌;多个模型在博士级科学问题上达到或超过人类水平;在代码生成基准SWE-bench Verified上,AI模型对人类基准的完成率一年内从60%跃升至接近100%。AI智能体在测试真实计算机操作任务的OSWorld基准上,成功率从12%提高至约66%。

然而,同一个模型,正确读取指针式时钟的准确率仅为50.1%,近乎随机猜测。机器人在家庭任务中的成功率依然只有12%。研究者将这种现象称为“锯齿状前沿”:AI在一些高度结构化的认知任务上可以超越人类,但在另一些看似简单的任务上却系统性失败。这一模式在多种任务和多个模型上反复出现,值得在部署决策中予以重视。

理解这一点,对于判断AI在哪些场景下可以可靠部署、在哪些场景下风险仍然不可控,具有直接的实践意义。

在模型格局方面,2025年产业界发布了超过90%的主要前沿模型,开源模型的竞争力也在持续增强。报告指出,排名靠前的系统在训练代码、数据集规模和参数量方面的公开披露越来越少,透明度呈下降趋势。另一方面,AI论文发表数量持续增长,2024年全球AI论文约25.8万篇,占计算机科学发表总量的40.9%,是2013年的两倍以上。

美国与中国在模型性能上的差距,在2025年实质性缩小。2025年2月,DeepSeek-R1一度与美国最强模型持平;截至2026年3月,Anthropic的最强模型仅领先中国最强模型2.7个百分点。两国在不同指标上各占优势:美国在顶级模型数量和高影响力专利方面领先,中国则在论文发表量、引用份额、专利授权量和工业机器人安装量上占优。

2025年全球企业AI投资较上年翻倍以上。美国私人AI投资达2859亿美元,是中国124亿美元的23倍。全球企业AI采用率升至88%,美国新获融资的AI公司达1953家,是第二名的10倍。生成式AI在消费端的渗透率三年内达到53%,快于个人电脑和互联网的普及速度。截至2026年初,生成式AI工具为美国消费者创造的年估算价值约1720亿美元,中位用户价值在一年内增长了两倍。

在生产力方面,研究显示AI在客户支持和软件开发领域带来了14%至26%的效率提升,但在需要较强判断力的任务中,效果较弱甚至为负。几乎所有业务职能中,AI智能体的实际部署率仍在个位数。

在就业方面,报告记录了一个值得注意的结构性信号:数据显示,在AI生产力提升最明显的软件开发领域,美国22至25岁软件开发者的就业人数从2024年起下降了约20%,而年龄较大的开发者就业人数仍在增长。这种“年龄梯度”的出现,与AI自动化优先替代例行性任务的逻辑相符。

在人才方面,移居美国的AI研究者和开发者数量自2017年以来下降了89%,仅过去一年就下降了80%。报告未给出单一原因,签证政策、国际竞争加剧、远程工作普及等都可能是因素,但这与美国在AI投资和模型数量上的绝对领先地位形成明显反差。

在算力基础设施方面,美国拥有5427个数据中心,是其他任何单一国家的10倍以上。几乎所有主要AI芯片均由台积电(TSMC)一家代工,全球AI硬件供应链高度集中于少数先进制程产能。TSMC在美国的扩产项目已于2025年开始运营,但集中度风险依然存在。

在科学领域,报告记录到AI的参与方式在2025年出现了明显转变,从辅助个别研究步骤,转向尝试接管更完整的科学工作流。前沿模型在ChemBench上平均超越了人类化学家,但在天体物理学结果复现任务上的得分低于20%,在地球观测问题上也只有33%。高分和低分并存,再次说明AI在科学领域的可用性需要按学科、按任务类型分别评估。

报告还记录了一个值得注意的现象:更大的模型并不总是表现更好。1.11亿参数的蛋白质语言模型MSAPairformer,在ProteinGym基准上超越了此前所有方法;2亿参数的基因组学模型GPN-Star,超越了规模约200倍的更大模型。科学专用模型大多来自跨部门合作,而非产业主导,这与通用AI领域的格局不同。

在医疗领域,AI自动生成临床记录的工具在2025年实现了大规模部署,多家医院数据显示医生书写记录的时间最多减少83%,职业倦怠感也有所降低。这是目前临床AI落地中证据相对充分的领域之一。

但这一积极案例是例外,而非常态。对500余项临床AI研究的综述显示,近一半研究依赖考试题式测验而非真实患者数据,只有5%使用了真实临床数据。大规模部署先于严格验证,是目前医疗AI领域的普遍状态,这给临床AI可靠性的评估带来了较大的不确定性。

报告用专门章节阐述了负责任AI领域面临的困境,核心问题不仅是技术难度,更是结构性的激励错位。

几乎所有前沿模型开发者都会公开报告能力基准的结果,但在负责任AI(安全性、公平性、透明度等)基准上的报告依然零散且不一致。2024年有据可查的AI事故升至362起,2023年为233起。研究还发现,改进某一负责任AI维度(如安全性)往往会降低另一维度(如准确性),多目标优化在技术层面上仍是开放问题。

在监管层面,各国在2025年的行动方向截然不同。欧盟AI法案首批禁止性条款正式生效,美国则呈现去监管倾向。日本、韩国、意大利各自通过了国家AI法律,超过一半新发布的国家AI战略来自此前尚未制定此类政策的发展中国家。报告将“AI主权”作为理解本年度各国政策走向的核心框架,各国正试图建立对本国AI生态系统的自主掌控,但实际能力与政策目标之间差距显著。

在公众认知方面,73%的AI专家认为AI对工作方式的影响整体上是正面的,公众中持相同判断的只有23%,差距约50个百分点。对经济和医疗影响的判断同样存在类似分歧。在对本国政府监管AI能力的信任度方面,美国公众的信任度只有31%,在所有受调查国家中最低。全球范围内,欧盟在处理AI监管问题上被认为比美国或中国更值得信赖。

这组数据说明的不只是“公众对AI了解不够”。专家和公众对同一技术的判断存在如此系统性的落差,说明两者所处的位置不同,观察到的信息和承担的风险也不同。这对AI政策如何在技术专业性和广泛社会代表性之间取得平衡,提出了持续的挑战。

报告还对AI的环境成本给出了具体估算:Grok 4的训练排放量约72816吨二氧化碳当量;全球AI数据中心装机容量升至29.6 GW,相当于纽约州峰值用电需求;仅GPT-4o推理的年度耗水量,就可能超过1200万人一年的饮用水消耗量。这些数据不是孤立的,它们是AI扩展成本在能源和水资源上的具体体现,也是治理讨论中需要纳入的量化参照。

报告在结尾明确指出:AI扩散的速度已经超过了衡量它的手段。基准测试正在饱和,前沿实验室的信息披露越来越少,独立测试并不总能印证开发商自报的结果。

因此,带来一个实际的问题:如果我们没有足够可靠的工具来测量AI的能力边界和风险分布,那么无论是监管政策还是部署决策,都缺少必要的信息基础。报告本身的意义,正在于它试图维持这个信息基础,即便这个任务正变得愈发困难。