斯坦福AI指数报告2026：能力飞速增长，评估治理滞后

发布时间：2026-04-24 12:15阅读：34

Sha Sajadieh, Raymond Perrault, Yolanda Gil 等人 | 斯坦福HAI | 2026年4月

斯坦福大学人类中心人工智能研究所（HAI）每年编纂AI指数报告，整合政府、学术界与工业界的独立数据，监控AI在九个方面的进步：研发、技术表现、负责任AI、经济、科学、医疗、教育、政策与公众感知。这已是该系列报告的第九份。

报告的核心观点是：AI技术能力的增长速度，已经超越了评估、管理与适应它的所有相关体系。这一差距体现在多个方面：技术测量工具逐渐失灵，监管框架方向不一，劳动力市场结构已经开始调整，而公众与专家对AI的认知存在系统性鸿沟。

2025年，AI能力持续迅猛扩张，但这种扩张并不均衡。

在一些明确定义的任务中，前沿模型已达到或超越了人类基准。谷歌的Gemini Deep Think在国际数学奥林匹克竞赛中斩获金牌；多个模型在博士级科学问题上达到或超过人类水平；在代码生成基准SWE-bench Verified上，AI模型对人类基准的完成率一年内从60%跃升至接近100%。AI智能体在测试真实计算机操作任务的OSWorld基准上，成功率从12%提高至约66%。

然而，同一个模型，正确读取指针式时钟的准确率仅为50.1%，近乎随机猜测。机器人在家庭任务中的成功率依然只有12%。研究者将这种现象称为“锯齿状前沿”：AI在一些高度结构化的认知任务上可以超越人类，但在另一些看似简单的任务上却系统性失败。这一模式在多种任务和多个模型上反复出现，值得在部署决策中予以重视。

理解这一点，对于判断AI在哪些场景下可以可靠部署、在哪些场景下风险仍然不可控，具有直接的实践意义。

在模型格局方面，2025年产业界发布了超过90%的主要前沿模型，开源模型的竞争力也在持续增强。报告指出，排名靠前的系统在训练代码、数据集规模和参数量方面的公开披露越来越少，透明度呈下降趋势。另一方面，AI论文发表数量持续增长，2024年全球AI论文约25.8万篇，占计算机科学发表总量的40.9%，是2013年的两倍以上。

美国与中国在模型性能上的差距，在2025年实质性缩小。2025年2月，DeepSeek-R1一度与美国最强模型持平；截至2026年3月，Anthropic的最强模型仅领先中国最强模型2.7个百分点。两国在不同指标上各占优势：美国在顶级模型数量和高影响力专利方面领先，中国则在论文发表量、引用份额、专利授权量和工业机器人安装量上占优。

2025年全球企业AI投资较上年翻倍以上。美国私人AI投资达2859亿美元，是中国124亿美元的23倍。全球企业AI采用率升至88%，美国新获融资的AI公司达1953家，是第二名的10倍。生成式AI在消费端的渗透率三年内达到53%，快于个人电脑和互联网的普及速度。截至2026年初，生成式AI工具为美国消费者创造的年估算价值约1720亿美元，中位用户价值在一年内增长了两倍。

在生产力方面，研究显示AI在客户支持和软件开发领域带来了14%至26%的效率提升，但在需要较强判断力的任务中，效果较弱甚至为负。几乎所有业务职能中，AI智能体的实际部署率仍在个位数。

在就业方面，报告记录了一个值得注意的结构性信号：数据显示，在AI生产力提升最明显的软件开发领域，美国22至25岁软件开发者的就业人数从2024年起下降了约20%，而年龄较大的开发者就业人数仍在增长。这种“年龄梯度”的出现，与AI自动化优先替代例行性任务的逻辑相符。

在人才方面，移居美国的AI研究者和开发者数量自2017年以来下降了89%，仅过去一年就下降了80%。报告未给出单一原因，签证政策、国际竞争加剧、远程工作普及等都可能是因素，但这与美国在AI投资和模型数量上的绝对领先地位形成明显反差。

在算力基础设施方面，美国拥有5427个数据中心，是其他任何单一国家的10倍以上。几乎所有主要AI芯片均由台积电（TSMC）一家代工，全球AI硬件供应链高度集中于少数先进制程产能。TSMC在美国的扩产项目已于2025年开始运营，但集中度风险依然存在。

在科学领域，报告记录到AI的参与方式在2025年出现了明显转变，从辅助个别研究步骤，转向尝试接管更完整的科学工作流。前沿模型在ChemBench上平均超越了人类化学家，但在天体物理学结果复现任务上的得分低于20%，在地球观测问题上也只有33%。高分和低分并存，再次说明AI在科学领域的可用性需要按学科、按任务类型分别评估。

报告还记录了一个值得注意的现象：更大的模型并不总是表现更好。1.11亿参数的蛋白质语言模型MSAPairformer，在ProteinGym基准上超越了此前所有方法；2亿参数的基因组学模型GPN-Star，超越了规模约200倍的更大模型。科学专用模型大多来自跨部门合作，而非产业主导，这与通用AI领域的格局不同。

在医疗领域，AI自动生成临床记录的工具在2025年实现了大规模部署，多家医院数据显示医生书写记录的时间最多减少83%，职业倦怠感也有所降低。这是目前临床AI落地中证据相对充分的领域之一。

但这一积极案例是例外，而非常态。对500余项临床AI研究的综述显示，近一半研究依赖考试题式测验而非真实患者数据，只有5%使用了真实临床数据。大规模部署先于严格验证，是目前医疗AI领域的普遍状态，这给临床AI可靠性的评估带来了较大的不确定性。

报告用专门章节阐述了负责任AI领域面临的困境，核心问题不仅是技术难度，更是结构性的激励错位。

几乎所有前沿模型开发者都会公开报告能力基准的结果，但在负责任AI（安全性、公平性、透明度等）基准上的报告依然零散且不一致。2024年有据可查的AI事故升至362起，2023年为233起。研究还发现，改进某一负责任AI维度（如安全性）往往会降低另一维度（如准确性），多目标优化在技术层面上仍是开放问题。

在监管层面，各国在2025年的行动方向截然不同。欧盟AI法案首批禁止性条款正式生效，美国则呈现去监管倾向。日本、韩国、意大利各自通过了国家AI法律，超过一半新发布的国家AI战略来自此前尚未制定此类政策的发展中国家。报告将“AI主权”作为理解本年度各国政策走向的核心框架，各国正试图建立对本国AI生态系统的自主掌控，但实际能力与政策目标之间差距显著。

在公众认知方面，73%的AI专家认为AI对工作方式的影响整体上是正面的，公众中持相同判断的只有23%，差距约50个百分点。对经济和医疗影响的判断同样存在类似分歧。在对本国政府监管AI能力的信任度方面，美国公众的信任度只有31%，在所有受调查国家中最低。全球范围内，欧盟在处理AI监管问题上被认为比美国或中国更值得信赖。

这组数据说明的不只是“公众对AI了解不够”。专家和公众对同一技术的判断存在如此系统性的落差，说明两者所处的位置不同，观察到的信息和承担的风险也不同。这对AI政策如何在技术专业性和广泛社会代表性之间取得平衡，提出了持续的挑战。

报告还对AI的环境成本给出了具体估算：Grok 4的训练排放量约72816吨二氧化碳当量；全球AI数据中心装机容量升至29.6 GW，相当于纽约州峰值用电需求；仅GPT-4o推理的年度耗水量，就可能超过1200万人一年的饮用水消耗量。这些数据不是孤立的，它们是AI扩展成本在能源和水资源上的具体体现，也是治理讨论中需要纳入的量化参照。

报告在结尾明确指出：AI扩散的速度已经超过了衡量它的手段。基准测试正在饱和，前沿实验室的信息披露越来越少，独立测试并不总能印证开发商自报的结果。

因此，带来一个实际的问题：如果我们没有足够可靠的工具来测量AI的能力边界和风险分布，那么无论是监管政策还是部署决策，都缺少必要的信息基础。报告本身的意义，正在于它试图维持这个信息基础，即便这个任务正变得愈发困难。

← 上一篇：红旗H9亮相华为乾崑大会，搭载四激光雷达与896线顶级配置下一篇：十五五规划：算力、算网与人工智能核心要点解读 →