PRAXIS：重塑生物研究的 AI 实验科学家

发布时间：2026-06-07 00:34阅读：35

AI 科学家案例学习负面案例代码验证长期记忆可审计工作流生物信息学大模型智能体

▲ 图 1：Schema envelopes enable routable and auditable cross-agent biomedical workflows

近两年来，以 Coscientist、ChemCrow 为代表的大模型科学家智能体，在化学合成路径规划及自动化实验调度等场景下，展现出了令人瞩目的能力。然而，一旦将这些智能体迁移至生物学与生物信息学领域，诸多挑战便随之而来。

首要难题是基因与蛋白名称的幻觉现象。生物学命名体系极为繁杂，同一基因在不同物种或数据库中可能拥有十几种别名，加之历史命名规则的混乱，大模型常凭“印象”生成看似正确却子虚乌有的名称，或错误混用人类基因 ID 与小鼠同源基因 ID。

其次是方法学选择的失配。生物实验方法的差异往往藏匿于某个修饰词中。例如，研究者实际需要的是 bulk RNA-seq（混合细胞群测序），通用智能体却笼统推荐 RNA-seq 流程，导致下游分析参数完全不适用；又如基因敲除验证应配合 Western blot 而非简单的 qPCR 表达验证，这些判断亟需深厚的领域语境。

第三是对数据库约定的误读。NCBI、Ensembl、UniProt、KEGG 等数据库在 organism code、gene ID、protein accession 等方面各有体系，物种简称甚至同一物种在不同版本中的标识均不一致。若智能体无法精准遵循约定，下游脚本几乎必然报错或产出垃圾数据。

最为致命的是可复现性的匮乏。同一查询在不同时间或上下文中可能得出截然不同的答案。这种随机性在闲聊场景中或许尚可容忍，但在涉及数百万投入的药物研发与靶点筛选等决策链路里，一次错误结论的代价足以令整个项目前功尽弃。

核心观点：生物研究对可靠性的要求远超一般任务，仅靠提示工程或工具调用难以奏效。AI 科学家需仿效人类研究员，通过结构化的案例学习与代码层面的验证，逐步构建可信赖的领域判断力。

人类研究生的成长路径特征鲜明：先研习理论与原理，再研读领域经典论文，最后在实验室中通过无数次的成败积累形成“手感”。PRAXIS 正是模仿了这一过程，将发表过的高质量生物研究论文蒸馏为结构化的“案例”，使 AI 智能体在每次查询时都能调取相关经验，并在执行环节通过可运行代码进行自检。

PRAXIS 之名源自希腊语 πρᾶξις，意为“实践”或“行动”，与 theoria（理论）相对。命名本身揭示了团队的设计哲学：无论提示词多么丰富、基础模型多么先进，若无法转化为可被代码检验、可被同行复审的具体行动，便不足以支撑严谨的科学决策。

案例蒸馏（case distillation）是 PRAXIS 的第一大支柱。研究团队设计了一套自动化流水线，能从公开发表的生物学论文中抽取结构化的案例条目。每条案例至少包含四个字段：研究所要解答的科学问题、所采用的实验或分析方法、过程中暴露的陷阱与限制、最终验证成功的结论。

这种结构化抽取的关键不在于“概括摘要”，而在于将隐性的方法学知识显性化。例如，某篇单细胞测序论文在补充材料中提到“因线粒体基因占比阈值设置过低，导致大量低质量细胞被误判保留”，此类信息往往未出现在摘要中，却恰恰是后来研究者最需要警惕的工程细节。PRAXIS 的蒸馏流程专门捕获这类经验性的“踩坑笔记”，并将其归档至案例库的对应字段。

PRAXIS 区别于现有 RAG（检索增强生成）方案的最关键创新，在于显式建模负面案例。在传统检索增强范式中，知识库存储的是“应当如何做”的正向陈述；而 PRAXIS 同时维护一个负面案例集合，专门记录“曾经出过错的做法及其后果”。

例如，某条负面案例可能是：在差异表达分析中直接使用未经批次校正的原始计数矩阵，会导致下游 GO 富集结果被批次效应主导，产生大量假阳性通路。又比如：在进行 CRISPR 文库筛选时未设计阴性对照 sgRNA，致使统计模型无法估计噪声水平，最终筛选出的候选基因不可信。

这类负向知识在人类社群中通常通过师徒口传、组会复盘等方式传递，很少进入正式文献的主体内容。PRAXIS 将其纳入结构化的可检索语料，意味着 AI 智能体首次具备了对“不该走的弯路”的系统认知，这是该框架在可靠性维度上取得突破的核心原因。

▲ 图 2：

查询发起时，PRAXIS 先对用户问题进行语义解析与领域分类，识别出涉及的生物对象、实验类型、数据规模等关键属性，再分别在正面案例库与负面案例库中执行多路检索。检索策略并非简单的最近邻匹配，而是综合考虑三个维度：语义相似度、领域同源性、案例置信度。

此外，检索环节还会进行去冗余与多样性平衡。若检索到的前若干条案例均源自同一作者团队或同一类实验体系，框架会主动放宽相似度阈值，引入异质性更强的备选案例，避免智能体陷入“局部最优”的方法学偏好。

所有生物信息学相关的中间结论与最终结论，都必须通过代码验证（code verification）这一关卡。这意味着智能体不能仅以自然语言形式输出“经分析，该基因在样本组中显著高表达”——它必须同时提供可执行的脚本，让脚本在沙箱环境中真实运行，并对结果进行预设的合规性检查。

代码验证拦截的错误类型涵盖广泛：数据格式不一致（如 FASTQ 文件被误当作 FASTA 处理）、参数取值越界（如 p 值阈值被误写为大于 1 的数）、依赖库版本冲突、命名空间错位等等。任何在解释层面看似流畅、在执行层面无法跑通的回答，都会被系统驳回并触发重新推理。

这种“代码即裁判”的设计将科研可靠性的最后一道防线交给了机器执行结果而非语言表象。仅依赖提示词约束的智能体，往往因大模型的表面流畅性而蒙蔽人类用户；引入代码验证后，错误暴露得更早、更明确，迭代修复也更具针对性。

PRAXIS 引入了跨会话的长期记忆机制。每次完成一次查询，框架会将本次推理过程中的关键决策、所引用的案例、最终验证结果摘要写入持久化记忆库；当后续相似查询出现时，可直接调取以往的成功经验或失败教训。

长期记忆并非简单的对话历史堆叠，而是经过结构化抽取与去冗余后的“经验晶体”。它具备两个重要属性：一是可溯源，每条记忆条目都会保留其

← 上一篇：深度解读：匮乏感——人类超越 AI 的灵魂特质下一篇：中美AI争霸全景：赛道、标准与全球变局 →