标签

《柳叶刀》刊发重磅研究:10万人随机对照中,AI医疗读片优势明确

发布时间:2026-04-08 20:20来源:微信阅读:7

乳腺癌是全球女性中最常见的恶性肿瘤。想要提升生存概率,最关键的方式就是尽早筛出、尽早干预,而乳腺X线摄影(常说的“钼靶”)目前仍是覆盖范围最广的筛查手段——也就是很多人定期去医院做的那项检查,用低剂量X射线观察乳腺内是否存在可疑阴影。

难点在于,影像判读本身是一项高度依赖专注力、同时又很容易让人疲惫的工作。为了尽量减少漏诊,不少国家采用“双读”制度——同一张片子由两位放射科医生分别独立阅片,之后再比对意见。这样做确实更稳妥,但代价也很明显:人力需求直接翻倍。而放眼全球,放射科医生本就紧缺,随着筛查规模持续扩大,这种缺口还在进一步增加。

那么,是否存在一种办法,让一名医生达到接近两名医生协作的效果?

也正是在这样的背景下,AI辅助读片开始被严肃地纳入讨论。过去几年相关研究已经不少,但一直缺少最能服众的一类证据:样本量足够大、随机分组、严格对照的临床试验——也就是那种真正意义上的“公平对决”。

MASAI试验,正是为这场较量而来。

这项试验在瑞典西南部4个筛查中心开展,时间跨度从2021年4月持续到2022年12月,共纳入105,934名40岁至74岁的女性。她们被随机分入两组,每组大约5万人,分组方式类似抛硬币,不由患者或医生主观决定。

其中一组采用:一名放射科医生 + AI。AI会先为每张影像生成风险评分,大部分看上去没有异常的片子,只需交由一名医生判读;而少数被AI判定为高风险的,则再安排另一名医生复核。与此同时,AI还会在图像上标出它认为可疑的区域,等于在医生旁边轻声提示:“这里,值得再仔细看看。”

另一组则是:两名放射科医生分别独立阅片,彼此之间不互相参考——这是目前欧洲乳腺癌筛查中较为通行的标准做法。

在完成阅片之后,再经过两年随访比较:哪一组漏掉的癌症更少?哪一组检出的癌症更多?哪一组误报更低?

这也是为什么心脏病学权威、医疗AI研究者Eric Topol会在推文中称其为“史上规模最大的医疗AI随机试验”——10万人规模,真实世界随访,没有取巧空间。就医疗AI研究而言,这样的体量此前几乎没有先例。

先来看一个核心指标:灵敏度。通俗地说,就是“真正患癌的人里,有多少比例被成功识别出来”。灵敏度越高,意味着漏诊越少。

结果公布后显示,AI组的灵敏度达到80.5%,而对照组(两名放射科医生)为73.8%——两者相差接近7个百分点。也就是说,假如有100名真正患癌的女性,AI辅助那一组能额外发现接近7人。这个差异具有统计学意义,并非偶然波动造成。

与此同时,另一个重要指标——特异性,也就是健康人不会被误判为患病的概率——两组完全一致,均为98.5%。换句话说,检出更多癌症的同时,并没有带来更多误诊。这是相当少见的“双赢”结果。

不过,真正让研究团队感到振奋的,是另一个数据——间期癌。

所谓间期癌,是指在两次常规筛查之间才被发现的癌症——也就是上一次筛查未能识别,直到出现症状或下一轮筛查时才确诊的病例。这类癌症通常生长更快、恶性程度更高,因此也是衡量筛查质量的一项关键指标:间期癌越少,说明筛查越有效。

数据显示,AI组每千人出现1.55例,对照组为1.76例,AI组更低。尽管这一差距尚未达到最严格的统计显著标准,但在两年时间里,5万人中少漏掉十几例癌症,显然不是一个可以轻轻带过的数字。

更值得关注的是,被漏掉癌症本身的“性质”。在AI组的间期癌中:高风险的侵袭性癌症减少了16%,体积较大的肿瘤减少了21%,最棘手的分子亚型(进展快、预后差的那类)减少了27%。也就是说,即便AI也并非零漏诊,它更少漏掉的是那些最危险、最难对付的癌症,而把更多真正凶险的病例提前揪了出来。

这篇发表于2026年的论文重点讨论了间期癌和灵敏度,但在整个MASAI系列研究中,还有一个早在2023年就已出现、却常被忽视的数据——放射科医生的阅片工作量下降了44%,与此同时癌症检出率比对照组高出29%。

44%。这意味着,原本需要两位医生共同承担的任务,如今通过一名医生加一个AI系统就能完成,而且质量没有下滑,部分指标甚至表现更优。

这背后的原理其实并不复杂。AI先把大量“看起来正常”的片子快速筛掉,只保留给一名医生确认,把有限而宝贵的双读资源集中投入到真正高风险的案例上。不是AI在替代医生,而是AI在帮助医生把注意力放到最值得投入的地方。

从这个意义上看,MASAI真正的价值,也许不只是回答“AI读片到底准不准”,更在于它展示了一套新的工作流程:在医生数量不变的情况下,可以服务更多受筛查人群。

当然,任何临床试验都有其边界条件,这项研究同样如此,有几点需要坦率说明。

首先,这项试验的设计目标,是证明AI组“并不逊于两名医生”,而不是直接证明它“必然更优”。间期癌下降的趋势确实已经出现,但还不足以让人现在就下定论说“AI显著降低了间期癌”,仍需更长期随访来进一步确认。

其次,试验仅在瑞典完成,当地医疗基础设施较完善,人口构成也相对单一。这些结果能否直接推广到中国、印度或撒哈拉以南非洲等地区,还需要结合本地数据来验证。

此外,还有一个更深层的问题目前仍没有答案:发现更多早期癌症、漏掉更少高危癌症,最终是否一定能转化为死亡率下降?乳腺癌的自然病程往往可持续十年以上,而两年的随访时间,看到的还只是整体图景的一部分。

在Eric Topol发出推文之后,相关讨论迅速扩散。有人在拆解数据,有人在思考放射科职业的未来,也有人已经开始盘算其中的商业空间。

对于放射科医生而言,44%的工作量被AI分担,眼下意味着缓解压力、争取喘息空间;但如果AI能力继续上升,这个比例未来会变成多少?这一职业的定义,会不会因此被重新书写?

对于医院和公共卫生系统来说,这无疑是一种少见的“节省人力却不牺牲质量”的方案。欧洲委员会关于乳腺癌筛查的指南,已经在讨论引入AI的实施路径。如果每一个筛查中心都能依靠AI承担一半读片任务,那么那些原本因医生不足而无法开展筛查的地区,或许也能逐步被纳入覆盖范围。

而对患者来说,结论则最为直接:更高的灵敏度,意味着更少漏掉高风险癌症;越早被发现,治愈机会就越大。

这项试验的意义,也并不只局限于乳腺癌或影像科本身。

它第一次用最严格的证据方式,回应了一个长期悬而未决的问题:AI究竟能否在临床诊断中真正补上一个人的工作位置?现在,这个答案已经越来越清楚。

更重要的是,它打开了另一种想象空间:如果AI在乳腺癌筛查中已经做到这一步,那么在肺癌筛查中呢?在眼底病变中呢?在皮肤科、病理科、超声科呢?全球每年都有数以百万计本可在早期发现的癌症,因为资源不足、医生短缺或地理偏远,被拖到中晚期才被识别。这些人并不是天生没有机会,而是那份机会太昂贵、太遥远,甚至从未真正存在过。

AI真正的价值,不只是让顶级医院变得更强,而是让那些过去几乎没有医疗资源的地方,也能拥有一双看见疾病的眼睛。

这场较量,AI已经赢下。接下来,更重要的是如何把这场胜利,真正转化为更多人活下去的可能。