《柳叶刀》刊发重磅研究：10万人随机对照中，AI医疗读片优势明确

发布时间：2026-04-08 20:20阅读：23

乳腺癌是全球女性中最常见的恶性肿瘤。想要提升生存概率，最关键的方式就是尽早筛出、尽早干预，而乳腺X线摄影（常说的“钼靶”）目前仍是覆盖范围最广的筛查手段——也就是很多人定期去医院做的那项检查，用低剂量X射线观察乳腺内是否存在可疑阴影。

难点在于，影像判读本身是一项高度依赖专注力、同时又很容易让人疲惫的工作。为了尽量减少漏诊，不少国家采用“双读”制度——同一张片子由两位放射科医生分别独立阅片，之后再比对意见。这样做确实更稳妥，但代价也很明显：人力需求直接翻倍。而放眼全球，放射科医生本就紧缺，随着筛查规模持续扩大，这种缺口还在进一步增加。

那么，是否存在一种办法，让一名医生达到接近两名医生协作的效果？

也正是在这样的背景下，AI辅助读片开始被严肃地纳入讨论。过去几年相关研究已经不少，但一直缺少最能服众的一类证据：样本量足够大、随机分组、严格对照的临床试验——也就是那种真正意义上的“公平对决”。

MASAI试验，正是为这场较量而来。

这项试验在瑞典西南部4个筛查中心开展，时间跨度从2021年4月持续到2022年12月，共纳入105,934名40岁至74岁的女性。她们被随机分入两组，每组大约5万人，分组方式类似抛硬币，不由患者或医生主观决定。

其中一组采用：一名放射科医生 + AI。AI会先为每张影像生成风险评分，大部分看上去没有异常的片子，只需交由一名医生判读；而少数被AI判定为高风险的，则再安排另一名医生复核。与此同时，AI还会在图像上标出它认为可疑的区域，等于在医生旁边轻声提示：“这里，值得再仔细看看。”

另一组则是：两名放射科医生分别独立阅片，彼此之间不互相参考——这是目前欧洲乳腺癌筛查中较为通行的标准做法。

在完成阅片之后，再经过两年随访比较：哪一组漏掉的癌症更少？哪一组检出的癌症更多？哪一组误报更低？

这也是为什么心脏病学权威、医疗AI研究者Eric Topol会在推文中称其为“史上规模最大的医疗AI随机试验”——10万人规模，真实世界随访，没有取巧空间。就医疗AI研究而言，这样的体量此前几乎没有先例。

先来看一个核心指标：灵敏度。通俗地说，就是“真正患癌的人里，有多少比例被成功识别出来”。灵敏度越高，意味着漏诊越少。

结果公布后显示，AI组的灵敏度达到80.5%，而对照组（两名放射科医生）为73.8%——两者相差接近7个百分点。也就是说，假如有100名真正患癌的女性，AI辅助那一组能额外发现接近7人。这个差异具有统计学意义，并非偶然波动造成。

与此同时，另一个重要指标——特异性，也就是健康人不会被误判为患病的概率——两组完全一致，均为98.5%。换句话说，检出更多癌症的同时，并没有带来更多误诊。这是相当少见的“双赢”结果。

不过，真正让研究团队感到振奋的，是另一个数据——间期癌。

所谓间期癌，是指在两次常规筛查之间才被发现的癌症——也就是上一次筛查未能识别，直到出现症状或下一轮筛查时才确诊的病例。这类癌症通常生长更快、恶性程度更高，因此也是衡量筛查质量的一项关键指标：间期癌越少，说明筛查越有效。

数据显示，AI组每千人出现1.55例，对照组为1.76例，AI组更低。尽管这一差距尚未达到最严格的统计显著标准，但在两年时间里，5万人中少漏掉十几例癌症，显然不是一个可以轻轻带过的数字。

更值得关注的是，被漏掉癌症本身的“性质”。在AI组的间期癌中：高风险的侵袭性癌症减少了16%，体积较大的肿瘤减少了21%，最棘手的分子亚型（进展快、预后差的那类）减少了27%。也就是说，即便AI也并非零漏诊，它更少漏掉的是那些最危险、最难对付的癌症，而把更多真正凶险的病例提前揪了出来。

这篇发表于2026年的论文重点讨论了间期癌和灵敏度，但在整个MASAI系列研究中，还有一个早在2023年就已出现、却常被忽视的数据——放射科医生的阅片工作量下降了44%，与此同时癌症检出率比对照组高出29%。

44%。这意味着，原本需要两位医生共同承担的任务，如今通过一名医生加一个AI系统就能完成，而且质量没有下滑，部分指标甚至表现更优。

这背后的原理其实并不复杂。AI先把大量“看起来正常”的片子快速筛掉，只保留给一名医生确认，把有限而宝贵的双读资源集中投入到真正高风险的案例上。不是AI在替代医生，而是AI在帮助医生把注意力放到最值得投入的地方。

从这个意义上看，MASAI真正的价值，也许不只是回答“AI读片到底准不准”，更在于它展示了一套新的工作流程：在医生数量不变的情况下，可以服务更多受筛查人群。

当然，任何临床试验都有其边界条件，这项研究同样如此，有几点需要坦率说明。

首先，这项试验的设计目标，是证明AI组“并不逊于两名医生”，而不是直接证明它“必然更优”。间期癌下降的趋势确实已经出现，但还不足以让人现在就下定论说“AI显著降低了间期癌”，仍需更长期随访来进一步确认。

其次，试验仅在瑞典完成，当地医疗基础设施较完善，人口构成也相对单一。这些结果能否直接推广到中国、印度或撒哈拉以南非洲等地区，还需要结合本地数据来验证。

此外，还有一个更深层的问题目前仍没有答案：发现更多早期癌症、漏掉更少高危癌症，最终是否一定能转化为死亡率下降？乳腺癌的自然病程往往可持续十年以上，而两年的随访时间，看到的还只是整体图景的一部分。

在Eric Topol发出推文之后，相关讨论迅速扩散。有人在拆解数据，有人在思考放射科职业的未来，也有人已经开始盘算其中的商业空间。

对于放射科医生而言，44%的工作量被AI分担，眼下意味着缓解压力、争取喘息空间；但如果AI能力继续上升，这个比例未来会变成多少？这一职业的定义，会不会因此被重新书写？

对于医院和公共卫生系统来说，这无疑是一种少见的“节省人力却不牺牲质量”的方案。欧洲委员会关于乳腺癌筛查的指南，已经在讨论引入AI的实施路径。如果每一个筛查中心都能依靠AI承担一半读片任务，那么那些原本因医生不足而无法开展筛查的地区，或许也能逐步被纳入覆盖范围。

而对患者来说，结论则最为直接：更高的灵敏度，意味着更少漏掉高风险癌症；越早被发现，治愈机会就越大。

这项试验的意义，也并不只局限于乳腺癌或影像科本身。

它第一次用最严格的证据方式，回应了一个长期悬而未决的问题：AI究竟能否在临床诊断中真正补上一个人的工作位置？现在，这个答案已经越来越清楚。

更重要的是，它打开了另一种想象空间：如果AI在乳腺癌筛查中已经做到这一步，那么在肺癌筛查中呢？在眼底病变中呢？在皮肤科、病理科、超声科呢？全球每年都有数以百万计本可在早期发现的癌症，因为资源不足、医生短缺或地理偏远，被拖到中晚期才被识别。这些人并不是天生没有机会，而是那份机会太昂贵、太遥远，甚至从未真正存在过。

AI真正的价值，不只是让顶级医院变得更强，而是让那些过去几乎没有医疗资源的地方，也能拥有一双看见疾病的眼睛。

这场较量，AI已经赢下。接下来，更重要的是如何把这场胜利，真正转化为更多人活下去的可能。

← 上一篇：AI速读与深度阅读的差距，在于这四点下一篇：共筑AI算力基石长城电源亮相2026 Open AI Infra峰会 →