Gen AI制药入临床？药监局警示模型黑箱与数据偏见

发布时间：2026-04-23 13:12阅读：11

生成式人工智能（Gen AI）是一种利用历史数据创造新内容的智能技术，在药物研发注册领域，Gen AI通过机器学习或深度学习模型，基于海量研发数据生成创新输出，涵盖药物分子设计、临床试验方案、药效评估、毒性预测、注册文档编写及结构化数据生成等多个维度[1]。近年来，Gen AI技术突飞猛进，全面渗透至制药研发、生产与销售链条，推动行业从“试错密集型”向“计算驱动型”转变。波士顿咨询集团（BCG）的报告指出，自2010年以来，采用AI作为核心策略的20家公司已将约15个管线项目推进至临床试验阶段[2]。Grand View Research的数据也显示，2023年全球AI药物研发市场规模达15亿美元，预计2024至2030年复合年增长率将高达29.7%[3]。

针对AI技术的迅猛发展，医药企业及监管机构均积极做出反应。企业致力于构建“数据-算力-算法”三角，通过优化训练集、调优算法及提升算力，试图解决传统研发高成本、长周期的难题，推动行业迈向智能决策。2024年6月，国家药监局发布了《药品监管人工智能典型应用场景清单》[4]，旨在支持“人工智能+”在药品监管领域的实践；2025年4月，工信部等六部委联合印发《医药工业数智化转型实施方案（2025—2030年）》[5]，致力于推动信息技术与医药产业链深度融合，加速行业数智化转型。

然而，AI在医药领域的广泛应用给药品监管带来了诸多新挑战，这些挑战削弱了传统监管框架的适用性。这种技术快速演进与制度响应之间的矛盾亟待解决。本文旨在梳理Gen AI在药物研发关键环节的应用、面临的挑战及监管对策，以期为生物医药的安全、合规与高质量发展提供参考。

Gen AI不仅能重新定位现有药物，还能发掘全新靶点。例如，PandaOmics生物信息平台融合了多组学网络与文献挖掘，成功锁定TRAF2-NCK交互激酶作为抗特发性肺纤维化的潜在靶点（TNIK），此前该靶点因机制不明而长期被忽视[11,12]。

锁定靶点后，设计具有良好成药性的候选分子是关键。传统筛选方法周期长、成本高。Gen AI的深度生成模型（如VAE、GAN、GNN）能通过学习化合物数据，识别化学空间规律，动态优化结构，生成兼具药理活性和药代动力学特性的分子[14-16]，极大提升先导化合物发现效率[17]。以Insilico Medicine的Chemistry42平台为例，该公司在18个月内设计、合成并筛选出多款高活性TNIK抑制剂，其中INS018-055已进入临床试验[11]。

在分子设计阶段，AI驱动的合成路线规划模型（如Chem AIRS）能高效智能地设计合成路径，评估可行性并优化工艺。此外，化合物非临床性质（ADMET）预测也是重要应用，如ADMET Predictor®、ADMETlab3.0等模型，可快速预测新分子的溶解度、稳定性、代谢途径及毒性。这些工具能在动物实验前筛除毒性高、代谢差的化合物，大幅降低后续开发风险与经费[22]。

进入临床开发后，仍面临方案设计复杂、患者招募难、数据管理繁琐及高失败率等问题。Gen AI能学习历史及真实世界数据，辅助生成更高效、成功率更高的临床试验方案，推动“先模拟后试验”模式落地[23-25]，并在受试者入组、简化流程等方面发挥作用。

在模拟方面，Gen AI可构建患者“数字孪生”模型，生成虚拟受试者群并模拟不同方案效果[26,27]。这些模型能根据特征再现疾病进程，帮助研究者提前测试方案组合，优化设计。例如，AI生成的“数字孪生”能辅助筛选入排标准，提高对个体差异的检测力[28]，并探索最佳剂量区间，减少真实患者暴露于无效方案的风险[29]。赛诺菲在哮喘试验中利用“数字孪生”预测剂量与终点关系，结果与Ib/II期数据高度吻合[30]。

Gen AI还能构建虚拟对照组，通过学习既往患者数据模拟结局，在不影响统计把握度的情况下减少安慰剂受试者，减轻伦理负担[27]。无论是“数字孪生”还是基于模型的合成对照，都提供了更灵活、符合伦理的替代方案，特别是在患者招募困难时。但需注意，生成的数据需结合高质量真实临床数据，以提高证据可信度。

此外，Gen AI还能辅助起草临床试验方案、知情同意书等文档，减轻文书负担[31,32]。在患者招募上，AI可基于电子病历和基因型快速筛选人群，提高入组效率与多样性。同时，AI能实时监控进度、分析期中数据，支持适应性试验决策。这些应用正与临床试验的去中心化、数字化趋势深度融合，使研究更高效。

Gen AI的计算与统计方法通常极为复杂，即便经验丰富的研发人员也难以理解其开发逻辑与结论得出过程。模型固有的“黑箱”特性给药物注册和审评审批带来巨大难题，审评员难以评估模拟结果的风险，也无法仅凭模拟结果提出审评意见。

因此，提升模型可解释性至关重要。研发层面，可通过简化模型、提取关键特征贡献、可视化交互界面或关联生物医学知识来增强可解释性。监管层面，FDA于2025年1月发布了《使用人工智能支持药品和生物制品监管决策的考量》指南草案[34]，强调需按“基于风险的可信度评估框架”评估模型，并提供模型结构、训练数据、验证方法等详细信息以支持决策。

高性能AI模型依赖大规模、多源生物医学数据，数据富集过程面临合规与安全挑战。患者病历和基因组属敏感信息，欧盟GDPR及我国《人类遗传资源管理条例实施细则》均对数据采集使用有严格规定[35,36]。

实操中，使用可识别数据需依法获取知情同意并采取匿名化措施。可采用联邦学习（FL）等分散式技术，在不共享原始数据的前提下共同训练模型，实现隐私保护[37]。但不同数据持有方的标准不一也可能影响模型泛化能力[38]。

此外，模型训练数据及生成结果的传输存储也应严加保护，防止知识产权和公共安全风险。因此，监管部门也要求在注册资料中详述模型训练数据集的

← 上一篇：政策驱动AI赋能企业创新的机制探究——基于要素创新配置视角下一篇：AI技术赋能机票购买新体验 →