斯坦福AI指数报告:十年间投资增长约40倍
核心要点
·斯坦福大学发布的《人工智能指数报告》是目前业界跟踪AI发展轨迹最具权威性的参考文献之一。最新发布的2026年版报告涵盖研究与开发、技术性能、负责任AI、经济影响、科学应用、医疗、教育等多个维度,汇集了全球最新数据与深度洞察。
· 报告显示,2025年,AI行业打造了超过90%的前沿模型,其中部分模型在博士层次的科学问题、多模态推理和竞赛数学方面,性能已至人类水平甚至有所超越。
· 尽管AI能力正跨越众多人类专属领域边界,但这些模型的能力分布呈现明显的“锯齿状”特征,例如部分大模型读取模拟时钟的准确率仅约50%。
· 报告指出,通过并购、少数股权、私募投资及公开募股等渠道,自2013年以来,AI相关投资规模增长约40倍。消费者正从日常免费使用工具中获得巨大价值。然而,三分之一的企业预计未来一年将因AI而削减员工数量。
· 【温馨提示】文末“阅读原文”可下载原报告。
斯坦福大学人工智能研究院(HAI)编制的《人工智能指数报告》年度报告,是当前全球跟踪AI发展最系统、最具权威性的参考文献之一。最新发布的2026年版报告涵盖研究与开发、技术性能、负责任AI、经济影响、科学应用、医疗、教育等多个维度。红珊瑚汇整理了报告中部分重要数据与洞察,以供各位读者参考。
研究与开发
报告显示,2025年,AI行业贡献了超过90%的知名模型,这一趋势在过去十年持续强化,头部工业实验室已成为前沿能力的核心产出地,学术机构则更多承担基础研究和人才输送的角色。
与此同时,闭源模型再次扩大领先优势。就在2024年8月,开源与闭源模型的性能差距一度缩至0.5%,外界普遍预期开源生态即将实现超越。然而截至2026年3月,闭源模型再度领先3.4%,Arena Leaderboard前10名中有6个仍为闭源模型。同时,开源生态的规模仍在高速扩张——GitHub上AI相关项目已达560万个,Hugging Face模型上传量较2023年增长3倍——但顶尖性能领域仍由闭源掌控。
报告称,最强大的模型正变得最不透明。在被跟踪的95个知名模型中,80个未公开训练代码;OpenAI、Anthropic、Google等头部实验室均未公开参数数量、数据集规模或训练时长。2020年,仅4个知名模型未公开训练代码;而今这一数字已是当年的20倍。
此外,AI基础设施的扩张速度令人惊叹。全球AI计算容量已达1710万H100等效单位,自2022年以来年均增长3.3倍;数据中心用电量达29.6GW,相当于整个纽约州的峰值用电需求。
技术表现
AI能力正在跨越一个又一个人类专属领域的边界。2025年,Google Gemini Deep Think在国际数学奥林匹克竞赛(IMO)中荣获金牌,以35分(达到金牌线)完成比赛——不借助任何特殊工具,在4.5小时竞赛时限内直接端到端作答,比2024年AlphaProof的银牌(28分)更进一步提升,此前还需专家将题目翻译成形式语言Lean才能运算。在代码领域,顶级模型在SWE-bench Verified基准上的得分从约60%攀升至76.8%,逼近人类开发者基线。
AI Agent方面,OSWorld基准准确率从12%跃升至66.3%,距人类表现仅差6个百分点。在博士级科学问题基准GPQA Diamond上,前沿模型平均准确率已达93%,超过人类专家验证基线12个百分点。
然而,这些模型的能力分布呈现明显的“锯齿状”特征。在ClockBench测试中,当前最强模型GPT-5.4 High读取模拟时钟的准确率仅为50.6%,人类准确率为90.1%,中位误差达1至3小时(人类仅需约3分钟)。在机器人领域,这一反差更加极端:同一套系统在软件模拟环境中的操作成功率高达89.4%,在真实家务场景中跌至12%——受控环境里接近完美,真实世界里几乎失效。这也反映出AI距离真正掌握物理世界还有很长的路要走。
顶级模型之间的性能差距正在快速缩小。截至2026年3月,Arena排行榜前四名——Anthropic(1503分)、xAI(1495分)、Google(1494分)、OpenAI(1481分)——聚集在25个Elo分以内。当能力差异缩小到这一量级,竞争的核心已悄然从“谁更聪明”转向“谁更便宜、更可靠、在特定领域更专业”。AI正在经历一个隐性的商品化进程。
能力的飞速提升,也带来了环境成本的急剧攀升。训练Grok 4产生的碳排放达到72,816吨二氧化碳当量;GPT-4o年度推理用水量,可能超过1200万人全年的饮用水需求。性能在趋同,但能耗的分化,正在成为衡量模型效率的新战场。
经济影响
报告显示,通过并购、少数股权、私募投资及公开募股等方式,自2013年以来,AI相关投资规模增长约40倍。2025年总投资额达5816.9亿美元,较上年增长129.9%。其中私募投资以3446.6亿美元占据最大份额,较2024年增长127.5%。并购活动同样呈现132.6%的同比增长。尽管投资结构逐年变化,企业正持续加大资本投入以强化其AI能力与市场地位的态势已非常明确。与此同时,AI公司的收入正以历史性的速度增长,而计算成本和基础设施支出也达到了创纪录的水平。
生成式AI的普及速度,正在刷新技术扩散的历史记录。从推出到覆盖全球53%人口,生成式AI仅用了约3年时间——远快于个人电脑和互联网的扩散曲线。组织层面的采用率已达88%。截至2026年初,AI工具对美国消费者创造的年度估计价值达1720亿美元,中位用户所感知的价值在一年内增长了3倍。这在很大程度上来自免费或低价工具的广泛渗透,用户在不知不觉中已将AI嵌入了日常工作流。
在客户支持和软件开发领域,AI带来的生产率提升已有14%至26%的实证数据支撑。然而,在生产率收益最显著的软件开发领域,2024年22至25岁美国入门级开发者的就业人数下降了近20%。三分之一的企业预计将因AI在未来一年减少其员工数量,尽管大规模的失业尚未在整体就业数据中显现出来。生产率的收益与初级岗位的萎缩,出现在同一个行业、同一个时间窗口——两者之间的相关性,值得持续关注。
医疗和教育
AI正在改变医生的临床工作流程。2025年,从患者问诊自动生成临床笔记的AI工具获得了大规模采用。医生反馈,使用这类工具后,花在书写记录上的时间减少了高达83%,同时显著缓解了职业倦怠。然而,报告对超过500项临床AI研究的系统审查发现,近半数研究依赖标准化问题,而非真实患者数据;仅有5%的研究采用了真实临床数据作为评估基础。
在教育领域,学生对AI工具的使用已远超教育机构。超过80%的美国高中生和大学生将AI用于与学校相关的任务;然而仅有50%的中学和高中制定了AI相关规定,更关键的是,在有相关规定的学校中,仅有6%的教师认为这些规定是清晰可操作的。
此外,对于AI的未来,专家与普通人之间存在50个百分点的认知鸿沟。73%的AI专家预期AI对工作方式将产生积极影响,而持相同看法的普通人仅有23%。类似的分歧延伸至经济影响和医疗健康领域。两个群体看到的,可能本就是AI影响的不同侧面:专家更多看到生产力的边界被推进,普通人更直接感受到就业和生活的不确定性。