AI 气候模型新纪元：AIMIP 第一阶段评估报告

发布时间：2026-05-11 20:05阅读：9

（加 EarthAi 微信交流群 + 商务合作，请备注：姓名 - 行业 - 单位）

这项研究标志着人工智能气候模型发展历程中的一个关键节点——AIMIP（人工智能天气与气候模型比对项目）第一阶段正式拉开帷幕。AIMIP 的提出，核心旨在解答一个根本性问题：当 AI 模型开始尝试"模拟"地球气候系统时，其可靠性究竟如何？

传统气候科学主要依托物理基础模型（例如 CMIP 系列），这些模型基于流体力学、热力学等物理法则构建，并经过了数十年的验证。然而近年来，以 NeuralGCM、ACE2、DLESyM 等为代表的 AI 气候模型迅速崛起，它们不直接求解物理方程，而是利用海量数据学习气候系统的统计规律。AIMIP 第一阶段的使命，正是为这些"数据驱动"的 AI 模型建立一套标准化的评估体系，使其接受与传统物理模型同等严苛的检验。

该论文由 Allen Institute for AI 的 Brian Henn 领衔，联合 ECMWF、Google DeepMind、NVIDIA、NOAA GFDL 等顶尖机构的科学家共同完成，彰显了 AI 与气候科学交叉领域的国际协作精神。

AIMIP Phase 1 的实验设计直接对标气候科学界的"黄金标准"——AMIP（大气模型比对项目）。AMIP 自 1989 年诞生以来，一直是评估大气模式的核心协议。AIMIP 继承了这一传统，但针对 AI 模型的特性进行了关键调整：

论文构建了五个核心评估指标（E1-E5），全面覆盖从气候态到极端事件的分析谱系：

AIMIP 要求所有模型输出必须遵循 CMIP7 的变量命名、单位及文件命名规范，并采用 CF-compliant NetCDF 格式。这一设计极具前瞻性——这意味着现有的 CMIP 评估工具（如 PMP、ESMValTool）可直接用于分析 AI 模型，大幅降低了社区接入门槛。

AIMIP Phase 1 共收到 8 个 AI 模型的提交，来自 6 个建模团队，涵盖了当前 AI 气候建模的三大技术路线：

这是最令人振奋的发现。在**全球面积加权均方根偏差（RMSB）**的比较中（图 2），多数 AI 模型的气候态偏差低于 GFDL-CM4。例如：

但偏差分布呈现明显的空间异质性：海洋区域偏差较小（SST 已指定），而陆地和海冰区域偏差较大。这与物理模型的行为一致，说明陆地过程仍是共同难题。

在测试期泛化方面，多数 AI 模型在 2015-2024 年的偏差有所增大，但程度各异。NeuralGCM-HRD、ArchesWeatherGen 等表现稳健，而 ACE2.1-ERA5 和 MD-1.5 v0.9 的测试期偏差明显增大。

这是 AI 模型暴露出的第一个重大短板。

图 3 展示了全球年均 2 米气温距平序列。在训练期（1979-2014），多数模型能跟随 ERA5 的变暖趋势，但幅度普遍偏弱。进入测试期（2015-2024），分化加剧：

特别值得注意的是，ACE2.1-ERA5 在包含 CO₂强迫的原始版本中表现良好，但在 AIMIP 协议（禁用 CO₂输入）下趋势能力骤降。这揭示了关键机制：当模型无法直接"看到"辐射强迫时，仅靠 SST 趋势来推断全球变暖存在本质困难。全球平均 SST 趋势与人为辐射强迫相关，但这种相关性并非因果关系，AI 模型难以从中"领悟"物理机制。

ENSO 作为最强的年际气候信号，是检验模型对边界强迫响应能力的试金石。结果令人鼓舞：

所有 AI 模型都能较好地复现 ERA5 中的 ENSO 空间响应模态（图 6）。2 米温度的 ENSO 回归系数误差在热带太平洋区域很小，降水响应的误差也相对可控。全球平均 ENSO 系数误差（图 C10）显示，多数 AI 模型的表现与 GFDL-CM4 相当甚至略优。

这说明 AI 模型成功"学习"了 SST 异常通过大气桥影响全球气候的统计规律，尽管这种学习未必基于物理理解。

通过计算 1979 年逐日异常相对于月平均的标准差（图 7），研究发现：

一个有趣的现象是：生成式模型（ArchesWeatherGen、cBottle1.3）在捕捉变率方面优于确定性模型，这符合直觉——生成模型通过概率采样天然保留了更多变率信息。

这是 AIMIP Phase 1 中最具挑战性的测试。将全球 SST 均匀增加 2K 和 4K，对仅见过历史气候的 AI 模型而言是强样本外场景。结果揭示了 AI 模型之间的巨大分歧（图 9）：

2 米温度响应：

降水响应：

这一结果敲响了警钟：AI 气候模型在"预测未见场景"方面的能力极不稳定。物理模型通过求解守恒方程保证能量、质量平衡，而 AI 模型依赖统计关联，当输入超出训练分布时，其行为可能偏离物理定律。论文特别指出，SST 在陆地/海冰区域的填充策略（常数填充 vs 插值 vs 融合）可能部分解释差异，但无法完全解释，暗示 AI 架构本身对输入扰动的敏感性是关键因素。

AIMIP Phase 1 最大的贡献之一，是证明了 AI 模型输出完全可以纳入 CMIP 生态体系。通过强制使用 CMIP7 兼容的变量命名、网格规范和文件格式，AIMIP 使得：

禁用 CO₂作为输入的决策体现了深刻的科学洞察。虽然这限制了部分模型的趋势能力，但避免了"记忆化"风险——如果模型将 CO₂浓度当作时间戳来记忆特定历史事件，其泛化能力将被严重高估。这种**"故意增加难度"**的设计，迫使模型真正学习 SST-大气响应的物理关联，而非投机取巧。

5 成员集合的要求虽小，但意义重大。它首次系统量化了 AI 模型的内部变率分散度。结果显示，多数模型的集合成员间偏差较小（误差棒短），说明 AI 模型的不确定性主要源于系统性偏差而非内部混沌，这与物理模型的行为有本质区别。

论文坦诚指出了 AIMIP Phase 1 的局限性：

未来阶段（Phase 2+）可能包括：

AIMIP Phase 1 的结论是审慎而乐观的：

"AI 模型能够像传统物理模型一样模拟历史气候和对强迫的响应，但部分模型低估了历史变暖趋势，且在样本外泛化测试中预测出现分歧。"

这句话精准概括了当前 AI 气候模型的双重面貌：一方面，它们在气候态、ENSO 响应等"内插型"任务上展现出媲美甚至超越物理模型的能力；另一方面，在趋势外推、极端扰动等"外推型"任务上，其物理一致性和可靠性仍存疑。

AIMIP 的意义远不止于一次技术评测。它标志着 AI 气候模型正式被纳入气候科学的主流评价体系，从"边缘创新"走向"核心竞技场"。随着 Phase 2 及后续阶段的推进，我们或许正在见证气候建模范式的历史性转折——不是 AI 取代物理模型，而是两者在相互验证、相互补充中，共同推动人类对地球系统的认知边界。

本文解读如有偏差欢迎联系小编，感谢！

微信公号：Earth-Ai

商务联系：Earth_Ai

← 上一篇：AI陪伴禁令背后：真正的挑战不在技术而在社会下一篇：AI行业周动态 | 5月5日至5月10日 →