标签

AI 气候模型新纪元:AIMIP 第一阶段评估报告

发布时间:2026-05-11 20:05来源:微信阅读:3

(加 EarthAi 微信交流群 + 商务合作,请备注:姓名 - 行业 - 单位)

这项研究标志着人工智能气候模型发展历程中的一个关键节点——AIMIP(人工智能天气与气候模型比对项目)第一阶段正式拉开帷幕。AIMIP 的提出,核心旨在解答一个根本性问题:当 AI 模型开始尝试"模拟"地球气候系统时,其可靠性究竟如何?

传统气候科学主要依托物理基础模型(例如 CMIP 系列),这些模型基于流体力学、热力学等物理法则构建,并经过了数十年的验证。然而近年来,以 NeuralGCM、ACE2、DLESyM 等为代表的 AI 气候模型迅速崛起,它们不直接求解物理方程,而是利用海量数据学习气候系统的统计规律。AIMIP 第一阶段的使命,正是为这些"数据驱动"的 AI 模型建立一套标准化的评估体系,使其接受与传统物理模型同等严苛的检验。

该论文由 Allen Institute for AI 的 Brian Henn 领衔,联合 ECMWF、Google DeepMind、NVIDIA、NOAA GFDL 等顶尖机构的科学家共同完成,彰显了 AI 与气候科学交叉领域的国际协作精神。

AIMIP Phase 1 的实验设计直接对标气候科学界的"黄金标准"——AMIP(大气模型比对项目)。AMIP 自 1989 年诞生以来,一直是评估大气模式的核心协议。AIMIP 继承了这一传统,但针对 AI 模型的特性进行了关键调整:

论文构建了五个核心评估指标(E1-E5),全面覆盖从气候态到极端事件的分析谱系:

AIMIP 要求所有模型输出必须遵循 CMIP7 的变量命名、单位及文件命名规范,并采用 CF-compliant NetCDF 格式。这一设计极具前瞻性——这意味着现有的 CMIP 评估工具(如 PMP、ESMValTool)可直接用于分析 AI 模型,大幅降低了社区接入门槛。

AIMIP Phase 1 共收到 8 个 AI 模型的提交,来自 6 个建模团队,涵盖了当前 AI 气候建模的三大技术路线:

这是最令人振奋的发现。在**全球面积加权均方根偏差(RMSB)**的比较中(图 2),多数 AI 模型的气候态偏差低于 GFDL-CM4。例如:

但偏差分布呈现明显的空间异质性:海洋区域偏差较小(SST 已指定),而陆地和海冰区域偏差较大。这与物理模型的行为一致,说明陆地过程仍是共同难题。

在测试期泛化方面,多数 AI 模型在 2015-2024 年的偏差有所增大,但程度各异。NeuralGCM-HRD、ArchesWeatherGen 等表现稳健,而 ACE2.1-ERA5 和 MD-1.5 v0.9 的测试期偏差明显增大。

这是 AI 模型暴露出的第一个重大短板。

图 3 展示了全球年均 2 米气温距平序列。在训练期(1979-2014),多数模型能跟随 ERA5 的变暖趋势,但幅度普遍偏弱。进入测试期(2015-2024),分化加剧:

特别值得注意的是,ACE2.1-ERA5 在包含 CO₂强迫的原始版本中表现良好,但在 AIMIP 协议(禁用 CO₂输入)下趋势能力骤降。这揭示了关键机制:当模型无法直接"看到"辐射强迫时,仅靠 SST 趋势来推断全球变暖存在本质困难。全球平均 SST 趋势与人为辐射强迫相关,但这种相关性并非因果关系,AI 模型难以从中"领悟"物理机制。

ENSO 作为最强的年际气候信号,是检验模型对边界强迫响应能力的试金石。结果令人鼓舞:

所有 AI 模型都能较好地复现 ERA5 中的 ENSO 空间响应模态(图 6)。2 米温度的 ENSO 回归系数误差在热带太平洋区域很小,降水响应的误差也相对可控。全球平均 ENSO 系数误差(图 C10)显示,多数 AI 模型的表现与 GFDL-CM4 相当甚至略优。

这说明 AI 模型成功"学习"了 SST 异常通过大气桥影响全球气候的统计规律,尽管这种学习未必基于物理理解。

通过计算 1979 年逐日异常相对于月平均的标准差(图 7),研究发现:

一个有趣的现象是:生成式模型(ArchesWeatherGen、cBottle1.3)在捕捉变率方面优于确定性模型,这符合直觉——生成模型通过概率采样天然保留了更多变率信息。

这是 AIMIP Phase 1 中最具挑战性的测试。将全球 SST 均匀增加 2K 和 4K,对仅见过历史气候的 AI 模型而言是强样本外场景。结果揭示了 AI 模型之间的巨大分歧(图 9):

2 米温度响应:

降水响应:

这一结果敲响了警钟:AI 气候模型在"预测未见场景"方面的能力极不稳定。物理模型通过求解守恒方程保证能量、质量平衡,而 AI 模型依赖统计关联,当输入超出训练分布时,其行为可能偏离物理定律。论文特别指出,SST 在陆地/海冰区域的填充策略(常数填充 vs 插值 vs 融合)可能部分解释差异,但无法完全解释,暗示 AI 架构本身对输入扰动的敏感性是关键因素。

AIMIP Phase 1 最大的贡献之一,是证明了 AI 模型输出完全可以纳入 CMIP 生态体系。通过强制使用 CMIP7 兼容的变量命名、网格规范和文件格式,AIMIP 使得:

禁用 CO₂作为输入的决策体现了深刻的科学洞察。虽然这限制了部分模型的趋势能力,但避免了"记忆化"风险——如果模型将 CO₂浓度当作时间戳来记忆特定历史事件,其泛化能力将被严重高估。这种**"故意增加难度"**的设计,迫使模型真正学习 SST-大气响应的物理关联,而非投机取巧。

5 成员集合的要求虽小,但意义重大。它首次系统量化了 AI 模型的内部变率分散度。结果显示,多数模型的集合成员间偏差较小(误差棒短),说明 AI 模型的不确定性主要源于系统性偏差而非内部混沌,这与物理模型的行为有本质区别。

论文坦诚指出了 AIMIP Phase 1 的局限性:

未来阶段(Phase 2+)可能包括:

AIMIP Phase 1 的结论是审慎而乐观的:

"AI 模型能够像传统物理模型一样模拟历史气候和对强迫的响应,但部分模型低估了历史变暖趋势,且在样本外泛化测试中预测出现分歧。"

这句话精准概括了当前 AI 气候模型的双重面貌:一方面,它们在气候态、ENSO 响应等"内插型"任务上展现出媲美甚至超越物理模型的能力;另一方面,在趋势外推、极端扰动等"外推型"任务上,其物理一致性和可靠性仍存疑。

AIMIP 的意义远不止于一次技术评测。它标志着 AI 气候模型正式被纳入气候科学的主流评价体系,从"边缘创新"走向"核心竞技场"。随着 Phase 2 及后续阶段的推进,我们或许正在见证气候建模范式的历史性转折——不是 AI 取代物理模型,而是两者在相互验证、相互补充中,共同推动人类对地球系统的认知边界。

本文解读如有偏差欢迎联系小编,感谢!

微信公号:Earth-Ai

商务联系:Earth_Ai