人工智能气象预测:越准越要小心
1970年11月12日,博拉气旋袭击了当时的东巴基斯坦海岸。这场风暴带来了每小时130英里(205公里)的最大持续风速和35英尺(10.5米)的风暴潮,估计造成30万至50万人死亡。
如今,博拉气旋仍然是历史上最致命的热带风暴。但如果它晚十年袭击地球,或许不会造成如此巨大的破坏。上世纪70年代,随着气象学家借助基于物理原理的计算机模型来改进风暴预测,天气预报迎来了巨变。如今人工智能加入其中,预报能力再次被推动向前——然而这一次,研究人员担心,当模型面对前所未见的极端天气时,其可靠性可能会被削弱。
研究人员将这种现象概括为“灰天鹅”问题。灰天鹅类的极端天气在理论上并不违背物理规律,但因为发生极其罕见,在训练数据里几乎没有足够样本。难点在于,气候变化正在让更少见甚至史无前例的极端事件增多。比如2021年太平洋西北地区的热浪:如果没有气候变化,它几乎不可能出现,而其强度之高也令人震惊。
物理预报模型能够对类似太平洋西北地区热浪这样的“灰天鹅”情形进行模拟,尽管这类事件通常被视为极端少见。之所以可行,是因为这类模型依托物理定律。而人工智能模型则主要从既往气象数据中学习;由于“灰天鹅”事件在历史资料中几乎不存在,因此模型很难在训练阶段获得充分经验。
“它们对‘灰天鹅’事件的预测能力不足,”芝加哥大学地球物理科学副教授佩德拉姆·哈桑扎德告诉Gizmodo网站。他和同事们在去年四月的一项研究中,将人工智能模型训练数据中所有3级到5级飓风的资料移除,并再用5级飓风数据来检验模型。研究结果显示,人工智能模型无法准确预测那些此前从未出现过的事件,因为这类任务本质上需要模型进行外推。
“让人担心的并不是偶尔的失误,而是人工智能模型可能在无人察觉的情况下出错——在破纪录的天气事件发生时,它反而会自信地给出普通天气的判断,”加州大学圣地亚哥分校计算机科学与工程系副教授 Rose Yu 在一封邮件中对 Gizmodo 表示。
“此外还有其他风险同样关键,”她继续说道。“人工智能模型可能用一些不易被发现的方式偏离守恒定律,而这些偏离无法通过常规指标直接反映出来。等到预测出错,要追查原因会更难。它们还高度依赖稳定的观测系统,而在卫星项目承压的背景下,这一点更令人忧虑。再从制度层面看,如果我们过快把资源投向人工智能整合,同时让基于物理学的基础设施逐步萎缩,就可能失去目前用于识别人工智能故障的冗余机制。”
尽管存在上述缺陷,气象学家仍在加速采用人工智能预测模型,原因并不复杂:它们通常运算更快、成本更低,而且所需的计算资源远比物理模型少。在预测常见的天气模式与事件(而非个别特例)方面,这些模型的表现与物理方法大致相当,并且仍在持续进步。
“许多最先进的物理模型在典型情况下,每十年大约能把准确度提高一天。听起来不算多,但实际意义很大,”雷丁大学气象学教授、数学、物理与计算科学学院院长安德鲁·查尔顿-佩雷斯告诉 Gizmodo。
他说:“机器学习模型的准确率提升速度远远超过这一水平。如今它们已具备竞争力,而就在两三年前,它们还几乎无法与之相比。”
例如在2025年大西洋飓风季,谷歌DeepMind的模型在风暴路径和强度方面接近或几乎胜过所有物理模型。与此同时,余教授指出,自2023年以来,GraphCast、盘古天气以及欧洲中期天气预报中心(ECMWF)的AIFS等领先人工智能模型,在中期预测的指标上已经达到甚至超过了最佳物理模型的水平。
在缺乏传统预测资源的地区——这些地区往往处在气候变化更前沿的地带——人工智能模型展现出更突出的价值。哈桑扎德曾共同牵头一项计划,为印度多地约3800万农民提供基于人工智能的季风预测,让他们最多提前四周获知雨季到来的时间。
哈桑扎德解释说:“在第一次天气预报革命中,不少国家之所以落后,是因为(传统)天气预报依赖超级计算机、需要数亿美元投入,还要动员不同领域的人员与专家。相比之下,人工智能模型对低收入国家来说更容易获得。”
不过,如果不把风险纳入考虑就仓促推行这些模型,可能会很危险,尤其是在那些对气候变化更敏感的地区。牛津大学博士后研究员舒鲁蒂·纳特(Shruti Nath)近期与他人合著了一篇社论,呼吁公共机构在大范围采用人工智能预测模型之前,先开展更严格的测试。
“要弄清楚这些模型的局限在哪里,以及它们能在哪些方面补足物理模型、为什么能做到,还有很多工作要做,”她在给 Gizmodo 的邮件中写道。
纳特的社论提出了一套用于检验人工智能预测模型的方法框架:研究者会有意从训练数据集中排除一组预先设定的“标志性”极端事件(例如太平洋西北地区的热浪)。这些被排除的事件只用于测试,用来衡量模型对推断此前未出现的极端天气(也就是“灰天鹅事件”)的能力。
社论还指出,要真正落地这项“无需标志性事件的人工智能重训练”(AIRWIE)协议,就需要气象界在“哪些高影响事件构成严格基准”这一点上形成共识。这确实是一项艰巨任务,但纳特认为,绝大多数研究人员都同意应当迫切开展这类测试。
“不过,我们也需要更有条理地确保各项流程被遵守,并让社区能够建立并长期维护扎实的安全保障措施,”纳特说。“在目前这种热闹的阶段里,大家都想搭顺风车,这就很难做到。”
与此同时,像哈桑扎德这样的研究者也在探索如何训练人工智能预测模型去应对灰天鹅事件。他与团队正在研究:将人工智能系统与“相关抽样”方法相结合(该方法可以生成灰天鹅事件样本),是否能提升模型在面对前所未有极端事件时的推断能力。
理解并解决人工智能预测的局限性至关重要,因为当前已经很难再“退回去”。人工智能正在改变我们预测天气的方式;随着气候进一步失稳,气象学家必须尽可能使用所有可用工具,来保证预测的准确性与可靠性。尽管目前仍有不足,但继续推进相关系统的发展,并探索如何把它们与物理预报的优势有效结合,仍然大有裨益。
“我们的研究方向是让人工智能模型在物理层面保持一致性,完成良好校准,并能够应对分布变化,”余教授说。“而因为灰天鹅问题就放弃这种路径,就等于放弃了过去一代人以来预测能力提升最大的机会。”