BVP报告:打造AI时代的生物原生数据基建
2026年4月12日,美国著名风投Bessemer Venture Partners(BVP)发布了一份报告,阐述了AI时代生物原生数据基础设施的三大核心准则,并强调这将彻底变革药物研发流程,确立下一代顶尖生物技术公司的标准。
长久以来,药物研发一直是一个通过反复试错来验证生物学假设与临床现实的过程。虽然科技持续进步,但从靶点发现到锁定临床候选药物,周期往往超过五年,且进入临床试验阶段的药物有近90%会遭遇失败。随着治疗环境的演变和药物类型的复杂化,每款获批药物的研发成本每九年翻一番也就不足为奇了。药物研发的瓶颈从来不在于假设的匮乏,而在于缺乏能够有效、高效评估这些假设的资源。
药物设计中的机器学习技术有望通过加快迭代速度和提升成功率来扭转这一局势。在2012年至2022年期间,大约200家利用人工智能进行药物研发的公司累计融资180亿美元。眼下,我们正目睹这些努力的成果在临床层面逐渐显现。
2025年6月,英矽智能在《Nature Medicine》期刊上公布了其首创小分子TNIK抑制剂rentosertib治疗特发性肺纤维化的积极IIa期临床数据。这使其成为首款靶点发现和分子设计完全由生成式人工智能完成并取得临床概念验证的药物。在此案例中,人工智能通过生成式化学平台进行分子设计与优化,在提升研发效率方面起到了决定性作用。研究团队仅筛选了78个分子便确定了临床前候选药物,而传统方法通常需要筛选数千个;整个过程仅耗时18个月,成本不足每款获批药物平均成本的10%。
鉴于可观的投资回报,包括大型制药企业在内,众多公司正竞相将人工智能平台整合进研发流程以加速药物发现,这并不让人意外。2026年初,葛兰素史克(GSK)和礼来分别宣布与NOETIK及Chai Discovery建立合作关系,旨在获取其肿瘤学和药物设计基础模型;其中葛兰素史克向NOETIK支付了5000万美元的预付款,礼来则向Chai支付每年八位数中段的费用以用于生物制剂设计。
将大规模人类细胞数据生成与机器学习相融合的insitro公司,近期在与百时美施贵宝(BMS)的合作中,又有两个额外的肌萎缩侧索硬化症(ALS)靶点被BMS选中,这充分验证了将专有数据生成与药物开发相结合的全栈式方法的价值。
从谷歌DeepMind分拆出来并开发了AlphaFold的Isomorphic Labs,已与礼来、诺华和强生建立了深度合作关系,潜在价值超过30亿美元,同时其内部肿瘤管线正朝着首次人体试验迈进。该公司最新发布的IsoDDE模型在最难的泛化基准测试中,准确率是AlphaFold 3的两倍以上,使其成为人工智能驱动药物设计领域最受瞩目的公司之一。不仅药企表现出兴趣:2026年4月初,Anthropic以4亿美元股票收购了成立仅8个月的初创公司Coefficient Bio,该公司由前Evozyne/基因泰克/Prescient Design的计算生物学家创立,这标志着前沿人工智能实验室如今正直接押注药物发现领域。
虽然计算化学工具最早出现在20世纪80年代,但生物技术人工智能的现代纪元实际上始于2010年代深度学习的崛起,当时人们明确意识到神经网络能够从数据中学习分子结构的有意义表示。转折点出现在DeepMind的AlphaFold2和贝克实验室的RoseTTAFold解决了仅凭氨基酸序列预测蛋白质三维结构的难题。此后,生物学人工智能模型的数量呈指数级增长。截至2024年,已发表的生物学人工智能模型超过350个,包括AlphaFold3、ESM3、Boltz-1、BindCraft、Evo、scGPT和H-Optimus-0,凸显了人工智能在生成式蛋白质设计、基因组学与扰动建模以及病理图像分析等领域的任务执行能力。
每年新增生物学人工智能模型数量
生物学人工智能模型的寒武纪大爆发已然发生。2015年至2025年间,每年发布的新生物学人工智能模型数量从不足10个呈指数级增长至380个以上,且这一趋势仍在持续。(注:该数据仅基于Epoch AI的数据集,可能不完整。)
近期,JAM-2、BoltzGen、Latent-X2、Chai-2和IsoDDE等新模型层出不穷,让我们离直接通过计算机设计类药生物制剂越来越近。零样本设计任务的发展势头空前强劲。随着生物学人工智能新模型的激增,该领域现已拥有覆盖药物开发全流程的工具库,涵盖从结构建模到分子设计再到药物优化的各个环节。
生物原生数据基础设施的三大原则
在竞争日趋激烈的格局下,我们认为能够长期生存并实现规模化发展的人工智能驱动型生物技术公司,将是那些建立在三大核心原则之上的企业,我们将其统称为生物原生数据基础设施原则:
1. 构建可扩展、多模态的数据集,并结合与药物作用机制相关的生物学挑战进行设计。
2. 在整个研发工作流中整合最新的智能体人工智能框架。
3. 采用实验室自动化技术,实现快速、闭环的实验反馈循环。
能够赋能或践行这些原则的公司,将真正缩短药物设计周期、降低临床试验失败风险,并兑现生物学领域人工智能的承诺。
下文将阐述这些原则对药物开发行业的重要性,并介绍正在将这些原则付诸实践的新兴领域和公司。
市场图谱
我们的市场图谱重点展示了利用人工智能创建和分析生物数据集、解决药物开发全流程挑战、加速端到端研发工作流以及自动化湿实验室实验工作的私营生命科学公司。
1. 规模化生物原生数据
当前人工智能生物学模型得以实现的大部分数据,是数十年公共资助科学研究缓慢积累的成果。蛋白质数据库(PDB)中超过20万个蛋白质结构,是通过X射线晶体学和核磁共振波谱法等技术实验测定的。同样,人类基因组计划绘制的人类基因和DNA图谱,是全球研究机构测序努力的结果;而ChEMBL包含数百万小分子的生物活性数据库,则是通过多年人工提取专利和文献数据积累而成。这些数据库的影响十分显著——例如,2019年至2023年间FDA批准的所有蛋白质靶向小分子抗癌药物,其研发都得益于PDB的结构数据。
生物技术模型最常用的训练数据
生物技术模型最常见的10项任务
过去几十年开发的人工智能生物学模型,反映了现有可获取的数据情况:近63%的模型是基于Uniprot数据库和PDB的蛋白质序列和结构训练而成(Epoch AI数据)。这些模型最常见的用途是对蛋白质或核苷酸序列进行上下文理解、蛋白质折叠预测或蛋白质设计。然而,由于生物系统的极端复杂性和现有研究工具的局限性,我们对早期药物发现生物学的认知仍存在重大空白。
尽管规模庞大,但PDB的数据严重偏向于稳定、可溶且易于结晶的蛋白质。虽然膜蛋白、固有无序蛋白和瞬时蛋白质复合物是肿瘤学和神经退行性疾病领域最具吸引力的药物靶点,但它们往往不符合上述标准,因此在数据库中的代表性严重不足。此外,PDB捕获的结构是静态快照,将蛋白质冻结在单一构象中,而非其在活细胞中呈现的动态构象集合。然而,往往正是这些替代构象具有最高的治疗相关性,例如只有在配体结合后才会暴露的变构结合位点。
尽管新药研发始于蛋白质结构和设计任务,但早期药物发现仅占药物开发过程时间和成本的一小部分。超过三分之二的药物开发时间和资源分配给了早期发现之后的步骤,包括临床前研究中的ADME(与“吸收、分布、代谢和排泄”相关的药代动力学性质)和制剂优化工作,以及临床试验中的安全性和有效性研究。要将一个药物从hits推进到先导化合物再到开发候选药物,仅仅确认分子能结合其靶点是远远不够的。药物开发过程还需要了解成药性、免疫原性、脱靶效应、热稳定性、溶解度和聚集倾向等性质,而目前用于监督模型学习这些性质的大规模、高质量公共数据集并不存在。
虽然药物发现本质上是一个理解扰动的问题,但目前没有类似PDB的数据库用于理解细胞对扰动的表型反应,甚至没有跨疾病状态的蛋白质组学数据。将细胞数据与临床数据关联起来则存在更大的空白:与治疗结果和试验应答相关联的患者层面组学图谱,孤岛化地存在于医院系统和生物制药数据库中,使得几乎不可能训练出能够在患者入组前预测其对特定疗法应答的模型。而这些性质恰恰决定了一个分子最终能否成为获批药物,这意味着商业价值最高的预测领域,恰恰是数据基础设施最薄弱的领域。
如今可用的大部分生物数据,都是在人工智能生物学模型爆发之前生成的,这意味着它们往往缺乏对机器学习有用的特征。注释通常不完整或不标准,重要的上下文信息(如细胞环境或使用的实验室设备)很少被捕获或编码到数据集中。在许多情况下,生物数据集的规模根本不足以让模型得出具有统计学意义的结论或做出无偏预测。即使具备规模,数据也往往按模态孤岛化——基因组、转录组、病理和临床结果数据集通常是分开收集和存储的,这使得构建一个能让人工智能对人类生物学全貌进行推理的数据层变得极具挑战性。
要真正释放人工智能在药物开发中的潜力,我们认为公司应在两个方面进行投资:一是生成新颖的多模态生物测量数据,拓宽我们对疾病的理解;二是构建具备规模、一致性和上下文信息的数据集,以训练能够在不同生物环境中泛化的模型。
我们很荣幸投资了几家践行这一原则的公司。Peptone将原子级生物物理学与超级计算相结合,生成关于固有无序蛋白的专有结构数据;Inductive Bio正在构建行业最大、最多样化的ADMET数据集之一,用于训练其Beacon模型,该模型最近在OpenADMET-ExpansionRx终点预测挑战赛的370多份提交作品中排名第一。Converge Bio正在生成大规模数据集,用于训练和验证其自有模型,并与制药和生物技术客户合作部署用于抗体设计或序列优化;Seismic则采取管线优先的方法,利用其IMPACT平台并行优化新型免疫学生物制剂的多种类药性质。
我们也看到了药物开发下游环节的进展。例如,NOETIK通过将肿瘤多组学数据与纵向治疗结果相结合,正在构建肿瘤学领域最全面的数据集之一;Prima Mente正在构建应用于脑部疾病的全基因组表观遗传和多组学数据模型。这些数据丰富的疾病特异性基础模型,旨在实现新颖的靶点和生物标志物发现、更精确的虚拟细胞模拟扰动模型以及更优化的临床试验设计。
2. 覆盖全研发工作流的智能体人工智能
尽管药物上市成本不断攀升,但自20世纪50年代以来,计算成本一直呈指数级下降,这与摩尔定律相符。如今计算成本高昂的药物开发任务,在几年内将变得极其低廉;那些构建了能够快速适应人工智能不断演进能力的技术栈的公司,将比那些将人工智能视为固定投资的公司,获得越来越显著的结构性优势。
计算药物发现工作流的演变,是这种适应性在实践中的一个很好的视角。虽然十年前内部构建专有分子建模和模拟工具可能是一种差异化优势,但现成计算机模拟工具的大量涌现已经改变了这一护城河逻辑。结构预测器、ADMET模型和分子动力学模拟器已经高度成熟,现在可以通过闭源架构和开源仓库广泛获取,因此战略性地组合生态系统中的各种工具,往往比从头构建更节省时间和资源。随着新基础模型的出现、新训练技术的发展以及新硬件带来更高的计算效率,这一逻辑同样适用。
公司应从第一天起就构建能够测试、实施和利用最新工具的基础设施,而不是锚定在任何单一技术栈上。如今,这种模块化基础设施可以表现为一个能够自主利用和编排特定任务最佳工具的系统,无论是文献综述还是运行生物信息学管线。
更便宜的计算使长上下文推理在经济上变得可行,使人工智能智能体能够在单次运行中综合超过1000篇论文和4万行代码。结合思维链推理和多智能体框架等提升人工智能准确性和效率的技术,人工智能显著压缩研发生命周期的成本和时间已变得越来越现实。
智能体人工智能科学家可以挖掘预印本服务器、专利申请和公共生物数据库,挖掘非显而易见的关联,生成新颖假设,执行计算机模拟数据分析,设计湿实验室实验并撰写报告,同时保持团队范围内的研究上下文和实验历史记录,从而帮助科学家做出更明智、更快速的决策。
很快,采用覆盖整个药物开发过程的人工智能操作系统将成为标准,利用人工智能保留广泛上下文的能力,将分析和结果统一到一个研究环境中,而不是让它们孤岛化地存在于不同的单点解决方案中。
越来越多的公司正在朝着这一愿景发展,包括纯粹专注于生命科学的初创公司和Anthropic等前沿实验室——Anthropic现在提供连接器,将Claude与Benchling、PubMed、ChEMBL、ClinicalTrials.gov等平台集成。K-Dense和Edison Scientific正在开发自主人工智能科学家平台,能够端到端地规划、执行和迭代复杂、长周期的研究工作流,从假设生成到运行计算实验。Phylo则采取互补的方法,推出了其综合生物学环境,这是一个统一的工作空间,科学家可以在其中与人工智能智能体无缝协作处理数据集和分析管线,无需在碎片化的界面之间切换。
Potato和Convoke等公司正在构建覆盖早期药物发现和下游商业化工作流的生物制药操作系统:Potato作为基础设施,能够自主设计和运行实验;Convoke则作为记录和执行系统,加速监管和基于文档的工作流,推动药物上市。
3. 闭环实验室自动化
即使是使用最前沿人工智能模型的公司,也会遇到实验数据生成的瓶颈。尽管结构预测和分子建模取得了巨大进步,但许多计算机模拟输出(如结合亲和力预测)仍需要在湿实验室中进行验证,才能有信心做出任何下游开发决策。除此之外,体内疗效从第一性原理上基本无法预测,晚期失败主要是由计算机模拟模型未能发现的药代动力学和毒性性质导致的。鉴于实验结果是生物学真实情况的最终