标签

Anthropic重磅研究:AI生物智能体遭遇滑铁卢

发布时间:2026-06-09 10:29来源:微信阅读:1

2026年6月8日,Anthropic在官方Research栏目发了一篇由gget工具作者Laura Luebbert领衔的新文章。

配套抛出一个叫VirBench的benchmark,把市面上叫得上名号的AI以及生物Agent全部拉到擂台上鞭了一遍——Claude Sonnet 4、Claude Opus 4.7、Biomni、Edison Analysis、GPT-5.2-pro、GPT-5.5,一个不落。

测试任务听起来很简单:从NCBI Virus数据库里检索符合条件的病毒序列,120道真实题目,覆盖40种病原体,每一题都有人工核对过的标准答案。

结果是六个顶级AI及智能体平均准确率从16.9%到91.3%不等。看起来好像没那么糟?但在病毒序列检索这件事上,可接受的准确率门槛实际上是100%——少一条记录、多一条记录,下游的系统发育分析、诊断试剂设计、抗体覆盖率评估,全都可能跟着崩。

文章里给了一个具体例子。研究者用同一个prompt让Sonnet 4检索2014年西非埃博拉疫情的相关序列,跑了三次。第一次返回106条,第二次15条,第三次5条——标准答案是266条。然后用这三批数据各自重建系统发育树,估算疫情的最近共同祖先时间TMRCA。手工curated的数据集得出的TMRCA是2014年1月,符合学术文献的既有结论。而Sonnet 4三次产出的三棵树里,有一棵直接把疫情起源推到了1922年。

同样的崩坏也发生在抗体表位分析上。同一种病毒、同一个问题、同一个模型、同一个prompt,对maftivimab和MBP134这两个WHO优先治疗候选药物的耐药位点分布,Sonnet 4跑了三次给出三个完全不同的医学判断。

在2026年5月DRC Bundibugyo病毒疫情已经超过1000例、200多死亡的当下,这种程度的不可复现性,放在公共卫生应急的关键决策窗口里,是要出人命的。

这不是模型的错,是基础设施的错

Luebbert团队随后给所有Agent接入了一个叫gget virus的确定性检索层——这是她和NCBI官方合作开发的工具,专门把NCBI Virus网页端那些"只有老练病毒学家才懂"的过滤逻辑翻译成机器可调用的接口。

接上之后,所有Agent准确率全部冲过90%,GPT-5.5达到99.7%,run-to-run的方差几乎消失,模型之间的差距也被压平。这一点对整个AI4Bio行业的暗示非常残酷:你花大价钱买最贵的模型,不如给便宜模型配一个对的工具。

Luebbert借Andrej Karpathy几个月前的话点题。Karpathy抱怨过,自己vibe-code一个网页应用,写代码只用了一天,剩下一整周都在浏览器里点来点去配认证、配支付、配部署。他的结论是"没人应该忍受这种事,我们必须为Agent重新构建一切"。

生物学家比软件工程师早被这件事折磨了至少十年。NCBI Virus、GenBank、RefSeq、INSDC——这些数据库设计的时候根本没想过有一天用户会是一个AI。它们是给有经验的人类研究员设计的,过滤逻辑藏在网页交互里,元数据字段含义靠"领域常识"补完,API只暴露一部分功能。

所以Anthropic这篇文章真正判死刑的是"只要模型够强,生物数据就能自己长出腿跑过来"这个集体幻想。它给整个赛道立了一个新的评价标准:判断一个AI4Bio产品的能力,不能只看模型benchmark,必须看它和底层数据基础设施的耦合质量。

顺便两个值得品味的细节。第一,Anthropic自家的Sonnet 4被反复拿出来做反面教材,脚注4里解释了原因:Sonnet 4是本次评估中可用的最新Anthropic公开模型,因为后续模型有生物安全相关的访问限制。Opus 4.7+在病毒学评测场景里被Anthropic自己关了门。

第二,Biomni作为开源生物Agent的代表被列在benchmark对象里,最终落点也在22.5%——这不是Biomni不行,是整个赛道当下的真实状况:没有任何一个Agent单靠模型能力能跨过那道准确率门槛。Luebbert的论点恰恰是替所有Agent团队解套:方向不在堆模型,在堆工具。