医疗 AI 的最高境界：懂得何时说“我不清楚”

发布时间：2026-05-11 18:31阅读：33

试想一下：若 AI 断言"你或许患上了癌症"，你敢轻易相信吗？

更令人担忧的是，倘若它表现得信心十足、头头是道，你或许真就信以为真了——即便它大错特错。

这并非科幻电影的桥段。近些年来，许多医疗 AI 产品都曾犯下此类笑话。它们的症结不在于"智力不足"，而在于过度自信，自信到不懂得何时该保持沉默。

近期，名为 OncoAgent 的项目提供了一种截然不同的解决思路。

首先需明确一点：OncoAgent 并非"AI 医生"。它既不会诊断"你患了何种疾病"，也不会为你开具处方。

其定位是肿瘤辅助分诊系统。

何为分诊？当你去医院急诊时，分诊护士会先评估你的状况，判断你该去内科还是外科，是需立即抢救还是排队候诊——这一过程即为分诊。

OncoAgent 的工作与之类似：医生输入病历信息后，它会协助分析该病例可能涉及哪个肿瘤领域，提出初步分诊建议，但最终裁决权始终掌握在医生手中。

这种定位本身就极具自知之明。

OncoAgent 的内部架构，简单来说就是三个 AI 角色轮流作业，宛如一个小型会诊团队：

其职责是"接诊"。获取病例后，首先执行两项任务：

对病人隐私信息进行脱敏处理（专业术语为 Zero-PHI，即将姓名、身份证号等全部抹除）

判定该病例应移交给哪个领域的专家进行分析

正如你去医院时，分诊台护士先询问"哪里不适"，随后指引你去几楼几号诊室。

这是真正执行任务的角色。它会：

细致剖析病例中的各类信息

查阅权威医学知识库，检索是否存在匹配的临床指南

整合各项证据，提出分析见解

这是最核心的角色。它不审阅病历，专门核查前一位"医生"的结论是否正确。

它会执行一项关键操作：Reflexion（自我反思）。简而言之——你说的每一句话，是否有权威文献佐证？若是胡乱猜测，则驳回重做。

这种"自我审查"的机制，在 AI 领域称为 self-check，旨在防止 AI 产生"幻觉"——即一本正经地胡编乱造。

三个角色协同运作，构建了一套完整的工作流：先分诊、再分析、最后审查。这在 AI 领域有个专业术语叫 Planner → Solver → Critic 架构，OncoAgent 将其打造为医疗版本。

这才是 OncoAgent 真正令人惊艳之处。

许多医疗 AI 的逻辑是：你问我，我就必须给你一个答复。无论对错，先回答了再说。这好比学生考试，不会做的题也要猜一个答案——万一猜中了呢？

但医疗绝非考试。猜错了，代价或许是生命。

OncoAgent 的做法截然不同：它仅引用权威指南。

具体而言，它只认可两本"教科书"：

NCCN 指南（美国国家综合癌症网络发布的临床实践指南）

ESMO 指南（欧洲肿瘤内科学会发布的临床指南）

这两份指南有何背景？可视为全球肿瘤科医生的"标准答案"。全球肿瘤科医生在制定治疗决策时，基本都会参考这两份指南。

OncoAgent 的规则很简单：若在这两份指南中找不到支持你结论的依据，那就保持沉默。

换言之，它宁愿告知你"此问题我无法解答，建议咨询专科医生"，也不会编造一个看似合理的答案。

这种设计在技术上称为 Guideline-grounded RAG（指南锚定的检索增强生成）。通俗解释就是：AI 并非自由发挥写作文，而是开卷考试——只能从指定参考资料中寻找答案，不可自行编造。

从技术视角看，OncoAgent 的"底子"也十分扎实：

LangGraph：一个专门用于构建多 Agent 工作流的框架，能让多个 AI 角色有序协作

RAG（检索增强生成）：让 AI 在回答前先查阅资料，而非单纯依赖"记忆"作答

推理验证：每次回答均需经过逻辑检验，并非"说得通即可"

值得一提的是，该项目诞生于 AMD 开发者黑客松，因此底层采用 AMD ROCm + MI300X 进行推理优化。MI300X 是 AMD 的高端 AI 加速芯片，专用于运行大模型，性能强劲。

在黑客松竞赛中，OncoAgent 能够脱颖而出，主要胜在四点：

第一，技术过硬。多 Agent 协作、RAG 检索、推理验证、隐私脱敏，应有尽有。

第二，与赛题高度契合。既是 AMD 的比赛，便要求选手展示 AMD 生态的能力，OncoAgent 在这方面做得十分到位。

第三，具有故事性。据作者透露，该项目的灵感源于母亲的一次误诊经历。真实的痛点结合技术解决方案，天然便能打动人心。

第四，Demo 效果出色。输入一份病例，屏幕上即刻展示分析过程与分诊建议——这种可视化效果，比 PPT 更具说服力。

任何技术项目都不可能完美无缺，OncoAgent 亦不例外。有三个问题值得冷静思考：

在医学领域，一个系统是否可用，并非"看起来合理"即可。你需要拿出硬核指标：

敏感度（Sensitivity）：真正患病的人，系统能检测出多少？

特异度（Specificity）：未患病的人，系统是否会误报？

误诊率（False Positive Rate）：系统判定"有问题"的人群中，有多少其实是健康的？

缺乏这些数据，OncoAgent 目前仍仅是一个工程原型，距离真正的临床应用尚有漫长之路。

许多人会认为：AI 既然查阅了权威指南，应该没问题了吧？

没那么简单。RAG 技术本身也存在陷阱：

检索时可能找错段落

将长文章切分成小块时（chunking）可能切在了不该切的位置

指南已更新，但系统内的知识库仍是旧版本

这些都是实际部署中可能遭遇的难题。

若真想让 OncoAgent 进入医院，需通过好几道关卡：

医疗器械注册认证（在中国为 NMPA，在美国为 FDA）

患者数据隐私合规（例如 HIPAA、GDPR）

大规模临床试验验证

这些都不是一个黑客松项目能在短时间内解决的。

OncoAgent 最令人欣赏之处，并非其技术有多炫酷，而是其设计哲学——知晓自己不知道什么。

在一个"万物皆可 AI"的时代，太多项目追求"AI 无所不能"。但医疗领域恰恰相反：AI 最重要的能力，并非回答问题，而是知晓自己何时不该回答。

一个会说"我不清楚，建议您咨询专业医生"的 AI，远比一个自信满满却可能误诊的 AI 更值得信赖。

OncoAgent 或许并非最终答案，但它指明了一个正确的方向：让 AI 成为医生的助手，而非替代者。在此方向上，每前进一步，都可能挽救更多生命。

参考