标签

解读《斯坦福AI指数报告2026》:为何聚焦“AI与科学”和“AI与医疗”?

发布时间:2026-04-16 12:15来源:微信阅读:5

2026年4月13日,斯坦福大学以人为本人工智能研究所正式发布了其第九版《人工智能指数报告》。这份长达423页的报告涵盖了研发、经济、政策及公众舆论等九大方面,但今年最引人注目的是,报告首次将“人工智能在科学领域的应用”与“人工智能在医疗领域的应用”分别设立为独立章节。AI技术在实验室和临床实践中的深度融合,已经达到足以让斯坦福大学为其开辟专门篇章的程度。这两个章节所传递的信息,共同勾勒出一幅关于“人工智能如何真正融入现实世界”的完整画卷。

相较于以往将“科学与医学”合并讨论的做法,2026年的报告首次将它们拆分为两个独立部分。这种结构上的调整本身就是一个清晰的信号:AI在科学探索和临床医疗两大领域的应用,已从“初步尝试”阶段迈入“足以支撑专题分析”的规模。

表面上,科学与医疗是两个迥然不同的领域——前者致力于探究“世界如何运行”,后者则聚焦于“如何治愈病患”。然而,这份报告揭示了两者背后共同的趋势:AI正从“供科学家和医生使用的工具”,演变为“与科学家和医生协同工作的智能伙伴”。在天文学、化学、气象预测等基础科学领域,AI已能独立完成整套科研流程;在临床实践中,由AI生成的病历摘要占据了84%至92%的健康相关谷歌搜索顶部位置,AI辅助诊断工具在疑难病例上的准确率高达85.5%,远超人类医生约20%的水平。

报告以“参差不齐的前沿”来形容这种不均衡的发展态势——AI能在国际数学奥林匹克竞赛中夺金,却可能识别不准模拟时钟。但正是这种不均衡,揭示了AI在科学和医疗领域落地的真实状况:在某些方面已可实现规模化应用,而在另一些方面仍处于早期探索阶段。这种分化恰恰体现了报告新增两个独立章节的深层意义——不再笼统地讨论“AI能做什么”,而是精确地剖析“在科学中能做什么”与“在医疗中能做什么”。

科学章节是今年报告中最受关注的部分之一。2025年,与AI相关的科学论文发表量达到约8万篇,同比增长26%,AI方法在科学研究产出中的占比升至5.8%至8.8%,而2010年这一比例尚不足1%。AI正从计算机科学的“专属领地”向更广泛的知识生产领域深度渗透。

“小模型”正在挑战“大模型”的地位。在分子生物学领域,报告揭示了一个反直觉的现象:仅拥有1.11亿参数的蛋白质语言模型MSAPairformer,在权威榜单ProteinGym上的表现超越了多个参数规模达数十亿的竞争对手;拥有2亿参数的基因组模型GPN-Star,其性能优于参数高达400亿的大型模型。在科学研究中,“更大”并不总是意味着“更好”。这对于资源有限的科研团队而言是一个积极的信号——追赶前沿未必需要依赖巨额计算能力,专业化的数据策略与精细化的模型设计同样能够带来突破。

AI已开始独立完成完整的科研流程。Sakana公司的AI Scientist-v2产出了首篇完全由AI生成并通过同行评审、被学术会议接受的论文。谷歌的AI Co-scientist在博士级别的科学问题上达到了78.4%的准确率。Kosmos模型在一次12小时的运行中执行了约4.2万行代码、阅读了1500篇论文,其工作量大致相当于6个月的研究。然而,这些进展也暴露了AI在科研中的局限性——前沿AI代理在论文级复现任务上的得分仍低于20%。在“提出”假设与“验证”假设之间,依然存在巨大的差距。

计算资源正流向科学领域,但数据开始成为新的瓶颈。中国在AI论文数量、引用份额和专利授权量上均位居全球第一,美国则在高影响力专利和重要模型产出方面保持优势。然而,报告特别指出,随着共折叠模型已能表示蛋白质数据库中的所有结构类型,生命科学AI模型的开发瓶颈正从“算力不足”转向“数据稀缺”。算力可以购买,但高质量、标注精准且符合伦理的科学数据,正变得比计算能力更为紧缺。

医疗章节记录了AI从“试点”走向“规模化部署”的关键转折点。

AI笔记工具成为临床应用最广泛的品类。2025年,AI临床笔记生成工具得到了大规模采纳。Sharp HealthCare报告显示,医生书写笔记的工作量减少了83%。芝加哥大学医学中心的认知负荷降低了47%,医生能够不分心地关注患者的时间增加了58%。斯坦福医疗在一项针对48名医生的前瞻性研究中发现,每半天门诊可节省20分钟,医生的职业倦怠感显著下降。这些数据清晰地表明:在医疗领域,AI最为成熟的应用并非“替代医生进行诊断”,而是“将医生从行政负担中解放出来”。

AI诊断代理已超越人类基准。微软的MAI-DxO结合OpenAI的o3模型,在304个《新英格兰医学杂志》刊登的复杂疑难病例中取得了85.5%的准确率,远超人类医生在类似条件下约20%的表现。在脓毒症预测方面也取得了实质性进展——TREWS系统在克利夫兰诊所13家医院部署后,脓毒症死亡率相对降低了18.7%,首次抗生素使用时间提前了1.85小时。这些成果表明,AI在临床决策辅助领域已具备可量化的临床价值。

监管审批加速,但证据基础薄弱。2025年,FDA批准了258款AI医疗设备,超过了以往任何完整年度的数量,累计总数达到1357个。GE Healthcare以93个设备领先,西门子以82个紧随其后,中国企业联影医疗以38个设备跻身全球前三。但报告也揭示了一个值得警惕的现象:绝大多数产品通过510(k)通道(依赖现有安全性和有效性证据)上市,仅2.4%有随机试验数据支持。一项涵盖超过500项临床AI研究的综述发现,近一半研究使用考试题而非真实患者数据,仅5%使用了真实的临床数据。AI医疗设备的“获批”与“被临床验证有效”之间,仍存在巨大差距。

专家与公众的认知鸿沟。84%的AI专家认为AI将在未来20年对医疗产生积极影响,但美国公众中持相同观点的比例仅为44%。64%的美国人预计AI会减少就业机会。美国民众对自己政府监管AI的信任度全球最低,仅为31%。技术的进步速度,远超社会信任与监管体系的适应能力。

将科学与医疗两个章节放在一起审视,一条清晰的线索浮现出来:AI正在从“回答问题”迈向“完成工作”。在科学领域,AI自主设计实验、撰写论文、通过同行评审;在医疗领域,AI自动生成病历、辅助诊断、优化脓毒症预警。这些不再是“演示级别”的概念验证,而是已经嵌入真实工作流程的部署级应用。

但两个章节也共同指向了相似的挑战。在科学领域,论文级复现任务得分不足20%——AI能“提出”假设,却难以“验证”假设;在医疗领域,仅5%的临床AI研究使用真实患者数据——AI在可控测试中表现出色,但面对真实世界的复杂性时,其可靠性仍有待验证。

斯坦福HAI选择在2026年将这两个章节独立成篇,本身就是一次“测量工具的升级”。并非因为AI在科学和医疗领域已做出了惊天动地的成就,而是因为AI在这两个领域的渗透速度与深度,已超出了“合并讨论”所能承载的范围。这份报告的章节重构,恰恰是对这一趋势的回应:AI的下一步,不在于拥有更长的上下文窗口,而在于如何与人类科学家、医生、工程师携手,解决现实世界中最棘手的问题。