AI 逆合成困境：数据并非万能药

发布时间：2026-05-28 05:32阅读：22

2024 年，AlphaFold 已能解析人类蛋白质组中绝大多数的结构，然而在有机合成规划这一「理论上更契合 AI」的领域，纯数据驱动的路径却遭遇了瓶颈。症结并非数据规模不足，而是我们严重低估了合成化学里「隐性知识」的深度。

标签：AI 逆合成 | 化学信息学 | 专家知识 | 数据质量 | 机器学习

首先明确结论：迄今为止，仅靠反应数据训练的 AI 逆合成规划器，仅能应对简单的目标分子。一旦面对拥有多个立体中心的复杂天然产物，它们便束手无策。

这与 AI 在其他领域的卓越表现形成强烈反差：

有机逆合成的搜索空间又如何？对于一条需 n 步完成的合成路线，潜在路径数约为 100^n。即便 n = 10，搜索空间也「仅」有 10^20——远小于围棋。从算力角度审视，这本应是个完全可控的难题。

那为何 AI 对此无能为力？

业内最普遍的呼声是：我们需要更多反应数据。尤其是「失败的实验记录」——若 AI 能从失败中汲取教训，便能知晓何种条件行不通。

此观点虽对，却仅触及表象。真正的问题远比数据匮乏更为根本。

前文曾提及 Grzybowski 团队 2021 年的研究：USPTO 专利库中约 40% 的反应条目可能存在错误。常见谬误包括将溶剂误作底物、底物与产物颠倒、多步反应被压缩为单步等。

这正是当前多数纯数据驱动模型的训练食粮。垃圾进，垃圾出——即便模型架构再精妙，也无法从错误数据中习得正确的化学规律。

这可能是最易被忽视的症结。

当化学家在论文中汇报反应时，读者所见仅为最终优化的条件——最佳催化剂、溶剂及温度。但在之前，研究者可能在实验室尝试了数十种条件组合，绝大多数均以失败告终。

这些失败细节几乎从未被记录。

这意味着，从公开数据中，AI 看到的是：「底物 A + 底物 B + 催化剂 Pd(PPh₃)₄ → 产物 C，产率 85%」。但它完全不知晓：若换用 Ni 催化剂产率仅 5%，将 DMF 换成甲苯则完全不反应，温度降至 40°C 需耗时 72 小时而非 2 小时。

发表的数据仅是冰山一角。水面之下是数量更为庞大的「暗知识」。

从具体反应中自动提取反应模板（Reaction Template）是几乎所有数据驱动方法的第一步。但这一步本身就布满陷阱：

纯数据驱动方法的核心假设是：所有必要的化学知识皆可从反应实例中归纳得出。然而这一假设是错误的。

以下几类知识，几乎无法从现有反应数据库中学得：

一个 Suzuki 偶联反应在数据中仅呈现为「芳基卤化物 + 硼酸 → 偶联产物」的模式。但其背后涉及氧化加成、转金属化、还原消除三步催化循环，每一步的能量学、动力学特征及中间体结构——这些决定了哪些底物可反应、哪些不可、何种条件最优。

缺乏机理理解，AI 便只是在从事表面模式的统计匹配。

这些原理是化学家数百年积累的「理论工具箱」，它们构成了反应预测的先验知识。一位掌握了这些原理的化学家，即便面对从未见过的底物，也能做出合理预测。但一个仅见过 1000 个反应实例的 ML 模型，面对超出训练分布的新底物时，往往会给出荒谬的建议。

这是高级合成设计中最精妙的技巧之一。化学家常将两个或多个反应串联甚至交叉进行，在单次操作中完成多重化学变换。例如：

这种「战术组合」在数据中表现为独立的反应实例，但其真正价值在于组合策略——这是一种更高阶的化学智能，远非简单的模板匹配所能涵盖。

工业界积累了大量关于试剂、溶剂、催化剂选择的实用指南（如 GSK 的试剂选择指南、溶剂选择指南），这些知识