标签

AI 逆合成困境:数据并非万能药

发布时间:2026-05-28 05:32来源:微信阅读:9

2024 年,AlphaFold 已能解析人类蛋白质组中绝大多数的结构,然而在有机合成规划这一「理论上更契合 AI」的领域,纯数据驱动的路径却遭遇了瓶颈。症结并非数据规模不足,而是我们严重低估了合成化学里「隐性知识」的深度。

标签:AI 逆合成 | 化学信息学 | 专家知识 | 数据质量 | 机器学习

首先明确结论:迄今为止,仅靠反应数据训练的 AI 逆合成规划器,仅能应对简单的目标分子。一旦面对拥有多个立体中心的复杂天然产物,它们便束手无策。

这与 AI 在其他领域的卓越表现形成强烈反差:

有机逆合成的搜索空间又如何?对于一条需 n 步完成的合成路线,潜在路径数约为 100^n。即便 n = 10,搜索空间也「仅」有 10^20——远小于围棋。从算力角度审视,这本应是个完全可控的难题。

那为何 AI 对此无能为力?

业内最普遍的呼声是:我们需要更多反应数据。尤其是「失败的实验记录」——若 AI 能从失败中汲取教训,便能知晓何种条件行不通。

此观点虽对,却仅触及表象。真正的问题远比数据匮乏更为根本。

前文曾提及 Grzybowski 团队 2021 年的研究:USPTO 专利库中约 40% 的反应条目可能存在错误。常见谬误包括将溶剂误作底物、底物与产物颠倒、多步反应被压缩为单步等。

这正是当前多数纯数据驱动模型的训练食粮。垃圾进,垃圾出——即便模型架构再精妙,也无法从错误数据中习得正确的化学规律。

这可能是最易被忽视的症结。

当化学家在论文中汇报反应时,读者所见仅为最终优化的条件——最佳催化剂、溶剂及温度。但在之前,研究者可能在实验室尝试了数十种条件组合,绝大多数均以失败告终。

这些失败细节几乎从未被记录。

这意味着,从公开数据中,AI 看到的是:「底物 A + 底物 B + 催化剂 Pd(PPh₃)₄ → 产物 C,产率 85%」。但它完全不知晓:若换用 Ni 催化剂产率仅 5%,将 DMF 换成甲苯则完全不反应,温度降至 40°C 需耗时 72 小时而非 2 小时。

发表的数据仅是冰山一角。水面之下是数量更为庞大的「暗知识」。

从具体反应中自动提取反应模板(Reaction Template)是几乎所有数据驱动方法的第一步。但这一步本身就布满陷阱:

纯数据驱动方法的核心假设是:所有必要的化学知识皆可从反应实例中归纳得出。然而这一假设是错误的。

以下几类知识,几乎无法从现有反应数据库中学得:

一个 Suzuki 偶联反应在数据中仅呈现为「芳基卤化物 + 硼酸 → 偶联产物」的模式。但其背后涉及氧化加成、转金属化、还原消除三步催化循环,每一步的能量学、动力学特征及中间体结构——这些决定了哪些底物可反应、哪些不可、何种条件最优。

缺乏机理理解,AI 便只是在从事表面模式的统计匹配。

这些原理是化学家数百年积累的「理论工具箱」,它们构成了反应预测的先验知识。一位掌握了这些原理的化学家,即便面对从未见过的底物,也能做出合理预测。但一个仅见过 1000 个反应实例的 ML 模型,面对超出训练分布的新底物时,往往会给出荒谬的建议。

这是高级合成设计中最精妙的技巧之一。化学家常将两个或多个反应串联甚至交叉进行,在单次操作中完成多重化学变换。例如:

这种「战术组合」在数据中表现为独立的反应实例,但其真正价值在于组合策略——这是一种更高阶的化学智能,远非简单的模板匹配所能涵盖。

工业界积累了大量关于试剂、溶剂、催化剂选择的实用指南(如 GSK 的试剂选择指南、溶剂选择指南),这些知识