Anthropic重磅研究：AI生物智能体遭遇滑铁卢

发布时间：2026-06-09 10:29阅读：12

2026年6月8日，Anthropic在官方Research栏目发了一篇由gget工具作者Laura Luebbert领衔的新文章。

配套抛出一个叫VirBench的benchmark，把市面上叫得上名号的AI以及生物Agent全部拉到擂台上鞭了一遍——Claude Sonnet 4、Claude Opus 4.7、Biomni、Edison Analysis、GPT-5.2-pro、GPT-5.5，一个不落。

测试任务听起来很简单：从NCBI Virus数据库里检索符合条件的病毒序列，120道真实题目，覆盖40种病原体，每一题都有人工核对过的标准答案。

结果是六个顶级AI及智能体平均准确率从16.9%到91.3%不等。看起来好像没那么糟？但在病毒序列检索这件事上，可接受的准确率门槛实际上是100%——少一条记录、多一条记录，下游的系统发育分析、诊断试剂设计、抗体覆盖率评估，全都可能跟着崩。

文章里给了一个具体例子。研究者用同一个prompt让Sonnet 4检索2014年西非埃博拉疫情的相关序列，跑了三次。第一次返回106条，第二次15条，第三次5条——标准答案是266条。然后用这三批数据各自重建系统发育树，估算疫情的最近共同祖先时间TMRCA。手工curated的数据集得出的TMRCA是2014年1月，符合学术文献的既有结论。而Sonnet 4三次产出的三棵树里，有一棵直接把疫情起源推到了1922年。

同样的崩坏也发生在抗体表位分析上。同一种病毒、同一个问题、同一个模型、同一个prompt，对maftivimab和MBP134这两个WHO优先治疗候选药物的耐药位点分布，Sonnet 4跑了三次给出三个完全不同的医学判断。

在2026年5月DRC Bundibugyo病毒疫情已经超过1000例、200多死亡的当下，这种程度的不可复现性，放在公共卫生应急的关键决策窗口里，是要出人命的。

这不是模型的错，是基础设施的错

Luebbert团队随后给所有Agent接入了一个叫gget virus的确定性检索层——这是她和NCBI官方合作开发的工具，专门把NCBI Virus网页端那些"只有老练病毒学家才懂"的过滤逻辑翻译成机器可调用的接口。

接上之后，所有Agent准确率全部冲过90%，GPT-5.5达到99.7%，run-to-run的方差几乎消失，模型之间的差距也被压平。这一点对整个AI4Bio行业的暗示非常残酷：你花大价钱买最贵的模型，不如给便宜模型配一个对的工具。

Luebbert借Andrej Karpathy几个月前的话点题。Karpathy抱怨过，自己vibe-code一个网页应用，写代码只用了一天，剩下一整周都在浏览器里点来点去配认证、配支付、配部署。他的结论是"没人应该忍受这种事，我们必须为Agent重新构建一切"。

生物学家比软件工程师早被这件事折磨了至少十年。NCBI Virus、GenBank、RefSeq、INSDC——这些数据库设计的时候根本没想过有一天用户会是一个AI。它们是给有经验的人类研究员设计的，过滤逻辑藏在网页交互里，元数据字段含义靠"领域常识"补完，API只暴露一部分功能。

所以Anthropic这篇文章真正判死刑的是"只要模型够强，生物数据就能自己长出腿跑过来"这个集体幻想。它给整个赛道立了一个新的评价标准：判断一个AI4Bio产品的能力，不能只看模型benchmark，必须看它和底层数据基础设施的耦合质量。

顺便两个值得品味的细节。第一，Anthropic自家的Sonnet 4被反复拿出来做反面教材，脚注4里解释了原因：Sonnet 4是本次评估中可用的最新Anthropic公开模型，因为后续模型有生物安全相关的访问限制。Opus 4.7+在病毒学评测场景里被Anthropic自己关了门。

第二，Biomni作为开源生物Agent的代表被列在benchmark对象里，最终落点也在22.5%——这不是Biomni不行，是整个赛道当下的真实状况：没有任何一个Agent单靠模型能力能跨过那道准确率门槛。Luebbert的论点恰恰是替所有Agent团队解套：方向不在堆模型，在堆工具。

← 上一篇：智文共生：AI与人文对话，每日打卡赢好礼下一篇：AI行业动态速递 →