标签

LungIMPACT揭示:胸片AI优先排序仍难缩短肺癌诊断关键时间

发布时间:2026-04-29 11:57来源:微信阅读:5

2026年3月24日,国际顶级医学期刊《Nature Medicine》在线上发布了LungIMPACT试验的结果。该研究由英国多家NHS信托机构协作完成,是目前规模最大的、用于评估人工智能介入肺癌诊断流程效果的前瞻性、多中心随机对照研究。

研究共纳入93326份来自基层医疗转诊的胸部X光片,采用按天随机分组方案,对比AI优先排序功能开启与关闭两组在核心临床终点上的差别。结果显示,两组从胸片进入CT检查的中位时间均为53天;确诊肺癌的中位时间分别为44天与46天,差异并不具有统计学意义。虽然AI使胸片报告出具的中位时间由47小时缩短到34.1小时,但这一变化并未带动后续诊疗环节同步改善。在诊断一致性方面,以放射科医生报告为参照,AI与医生判读不一致率为30.3%。在最关键的“团块/实变”征象上,AI特异性仅0.40,假阳性率达到60%。专家复核指出,在不一致病例中有23.9%存在可采取行动的影像学发现,部分情形提示AI标记正确而医生出现漏诊。

研究结论认为,在当前医疗资源条件下,仅引入AI优先排序功能无法改善肺癌诊断路径的关键时间指标,因此不建议将其纳入常规临床实践。该结果为AI在医学影像领域的循证应用提供了重要依据。

人工智能在医学影像诊断领域的发展

近年数字医疗的关键进展之一,是人工智能在医学影像诊断中的应用。由于医学影像通常数据量大、标准化水平相对较高,且诊断高度依赖视觉判读,它长期被视为深度学习技术率先取得突破的医学方向之一。自2012年深度学习在图像识别方面实现阶段性飞跃后,各类神经网络及其演进结构迅速被应用到医学影像分析,涉及放射学、病理学、皮肤病学、眼科学等多个细分领域。

在放射学方向,AI最早的研究热点集中在肺结节检测、乳腺X线影像判读、脑卒中CT识别等任务。由于胸部X光片在全球属于使用频率最高的影像检查之一,它具备检查成本低、辐射剂量小、操作简便等特点,因此成为AI算法开发的重要靶点。多项回顾性研究提示,AI在检测肺结节、气胸、实变、胸腔积液等异常方面表现良好;在部分数据集的评估中,某些产品甚至优于放射科医生的结果。凭借实验室条件下的优异成绩,部分AI产品已获得美国食品药品监督管理局(FDA)及欧盟CE认证,并逐步进入临床试验与真实世界部署阶段。

然而,AI从实验室走向临床应用仍面临多方面难点。首先,回顾性数据集往往经过筛选,不一定能反映真实临床影像的连续分布。其次,AI性能评估常以放射科医生报告作为参照,但医生本身存在观察者间及观察者内差异,尤其在边界性病变的判定上更为明显。再次,AI在临床工作流程中的落地方式会直接影响实际效果:它究竟作为并行判读工具、第二阅片者,还是用于工作列表优先排序,不同的嵌入模式可能导致完全不同的临床结局表现。最后,AI是否能真实改善患者结局(如诊断时间、治疗启动时间、生存结局等关键终点),仍需要高质量的前瞻性随机对照证据来支持。

在肺癌诊断路径中,胸部X光片往往是基层转诊患者的首个检查环节。英国国家肺癌最优路径提出:对于X光片异常的患者,应在72小时内完成CT检查。但在现实中,受放射科人员不足、影像报告积压、CT设备资源紧张等系统性因素影响,实际诊疗时间远未达到该标准。基于此,使用AI对疑似肺癌的X光片进行优先排序,使其更早进入放射科医生工作列表,被视为缩短诊断时间、改善患者结局的可能策略。LungIMPACT试验便围绕这一思路开展了首个大规模、多中心、随机对照研究。

LungIMPACT试验的研究设计与方法学评价

LungIMPACT试验的研究框架充分考虑了真实世界的临床情境。研究在英国五个NHS信托机构进行,涵盖不同类型、不同规模与不同地理位置的医院,以确保结果具备外部效度。研究纳入2023年7月至2024年12月期间所有基层医疗转诊的胸部X光片,共97731份;经数据清理后进入分析的为93326份,样本量充足且统计效能满足预先设定。

研究采用按天随机分组方式,使优先排序功能在不同研究日随机开启或关闭,而不是按患者或按单张影像随机。该设计具有关键的方法学意义:一方面,避免在临床流程中频繁切换操作模式带来的实施障碍与潜在偏倚;另一方面,保证在同一工作日内,放射科医生接触到的工作列表呈现方式一致,从而降低操作层面的混杂因素。与此同时,AI算法在所有研究日与所有影像中均被应用,即放射科医生在正式报告时都能看到AI标记;唯一差异在于是否将AI标记的可疑病例在工作列表中提前呈现。通过这种机制,研究能够更准确地衡量“优先排序”这一功能本身的独立效应,而非评估AI是否存在。

研究的主要结局指标聚焦于从X光片到CT检查的时间以及到肺癌确诊的时间。这两个指标具有明确临床含义:CT时间反映诊断链条中关键衔接环节的效率;诊断时间则代表患者获得确定性诊断的最终节点。次要结局则覆盖两周紧急转诊时间、治疗启动时间、癌症分期,以及AI与医生报告之间的一致性等内容,从而对诊断路径各环节进行更全面评估。

在数据处理方面,研究设置了严格质控。所有CT时间与诊断时间均由研究人员在不知道分组信息的情况下进行人工核实,并排除可能出现的无效日期导致的倒置时间段。对于部分CT与最初X光片缺乏关联的情况,研究还开展了敏感性分析,将范围限定在X光片后14天内完成的CT,以及明确由X光片触发转诊的CT,以提高主要终点测量的特异性。

从方法学视角来看,LungIMPACT试验体现了随机对照研究在评估医疗技术创新应用时的严谨性。其非知情同意模式(仅设置退出选项)在最大程度上减少对常规流程的扰动,使结果更能贴近实际操作条件下AI优先排序的影响。该设计也特别适合评估嵌入临床工作流程的技术干预,能够降低知情同意过程可能带来的选择偏倚与霍桑效应。

LungIMPACT试验的主要发现及其解读

LungIMPACT试验的核心发现可从三个角度概括:优先排序对临床结局的影响、AI与放射科医生判读的一致性情况,以及发生不一致时的临床意义。

第一,AI优先排序未能改善关键临床结局。研究结果显示,优先排序组与对照组完成CT的中位时间均为53天(几何均数比0.97,95% CI 0.93–1.02,P = 0.31);确诊肺癌的中位时间分别为44天与46天(几何均数比0.98,95% CI 0.83–1.16,P = 0.84)。尽管优先排序使胸片报告出具的中位时间从47小时减少到34.1小时(缩短约12小时),但这一优势并未传递到CT检查与最终诊断环节。该现象提示诊断路径存在“瓶颈转移”:当放射科内部的报告延迟被压缩后,CT预约、专科门诊以及多学科团队讨论等后续环节会成为新的限速点。在当前资源配置下,单一环节的优化难以带来全流程的同步改善。

第二,AI与放射科医生报告之间存在明显的不一致。以放射科医生报告作为对照,AI与医生不一致的胸片比例达到30.3%。在肺癌相关异常类别中,AI对结节的敏感性为0.79、特异性为0.78;对团块/实变的敏感性为0.85、特异性为0.40。特异性偏低意味着AI会产生较多假阳性标记,在团块/实变类别中尤其突出,假阳性标记数量达到11284例。对临床实践而言,这意味着AI的高假阳性率可能增加医生复查正常影像的工作量,并引发“狼来了”效应:当警示过于频繁,医生可能降低对警示信号的警觉,从而不利于真正异常病例的识别。

第三,不一致病例的专家复审提示AI可能存在一定补充价值。在AI与医生不一致的28261份胸片中,专家复核发现23.9%(6750例)存在可采取行动的影像学发现。其中,672例(2.4%)被建议进行转诊CT或肺癌多学科团队评估,232例随后确诊为肺癌。该结果值得关注:它表明在某些情境下,AI或许能够捕捉到原始报告医生未能充分重视甚至漏掉的异常,从而在现有流程之外提供补充诊断信息。但同时,假阳性带来的额外检出负担也需要被纳入平衡:如何在临床落地中同时兼顾假阳性负担与额外检出的收益,仍是AI部署必须解决的重要问题。

此外,研究还显示:当放射科医生报告与AI均提示异常时,从X光片到CT的中位时间为8天,到诊断的中位时间为38天;而当两者均判定为正常,X光片到CT的中位时间分别为72天、到诊断的中位时间为177天。该发现进一步支持:AI与医生判读结果高度一致时,能够更有效识别高风险人群;而当两者不一致时,患者诊断路径明显拉长,反映临床决策中存在更高的不确定性。

LungIMPACT试验的临床意义与政策启示

作为目前规模最大的随机对照研究,LungIMPACT专门评估AI在肺癌诊断路径中的应用。其结果对于推进AI影像技术的临床验证与实际应用具有重要启示。

第一,研究明确了AI优先排序功能的适用边界。在现有医疗资源条件下,仅把AI用于工作列表优先排序,难以改善患者的关键临床结局。该结论直接指导临床落地:机构在引入AI时不应把优先排序当作首要场景,而应优先考虑能与整体诊疗流程更紧密结合的应用方式。例如,将AI与即时报告、同日CT检查、快速转诊通道等结构性改造相结合,可能比单点技术介入更有机会改善患者结局。

第二,研究揭示了真实世界表现与实验室结果之间存在差距。尽管该AI产品在回顾性研究中往往可达到AUC 0.90以上(注:AUC,即受试者工作特征曲线下面积,是衡量二分类诊断模型性能的关键指标;AUC 0.9表示随机抽取一个异常病例与一个正常病例时,模型把异常评分高于正常的概率为90%,属于实验条件下的高水平表现),但在真实临床环境中,其与放射科医生报告的一致性仅为约70%,尤其特异性偏低。差距来源可能包括:真实临床影像分布更复杂、包含更多边界病例;医生报告本身存在变异性;以及临床工作流程的实际操作条件与理想研究环境存在不同。该结果提示,AI在进入临床应用前必须进行真实世界条件下的前瞻性验证,仅凭回顾性数据不足以支撑推广决策。

第三,研究为AI在肺癌诊断中的角色定位提供了循证依据。AI的价值不应被简单理解为替代医生或单纯加速流程,更应理解为在特定临床场景下提供补充信息、辅助决策的工具。在本研究中,AI在部分医生报告为正常的病例中识别出可采取行动的异常,这提示AI可能具有减少漏诊的潜力。但与此同时,较高的假阳性检出也意味着临床应用需要配套有效的过滤机制,以避免增加医生不必要负担。

第四,研究对未来研究方向给出明确指引。LungIMPACT试验将“AI优先排序”与“AI辅助判读”进行区分,并证实前者在现有条件下效果有限。后续研究可重点关注:AI辅助判读是否能改善诊断准确性;AI识别出医生可能忽略异常的真实临床价值;以及基于AI的风险分层能否优化资源分配。本研究中,专家复审发现232例AI阳性但医生判定为阴性的肺癌病例,对这些病例的深入分析将有助于理解AI补充诊断价值的具体机制。

结语

LungIMPACT试验凭借严谨的设计、大样本量以及真实世界场景,为人工智能在肺癌诊断路径中的应用提供了关键证据。研究显示,在放射科内部单独引入AI优先排序,并不能缩短患者完成CT检查并确诊肺癌所需的时间。该发现挑战了“AI可自动加速诊断”的直觉预期,并强调医疗技术创新必须与系统性流程再造协同,才能真正产生预期效果。

从更宏观的层面看,LungIMPACT试验代表了医学影像AI从技术性能验证走向临床验证的重要阶段。早期人们对AI在医学影像中的应用热情,正在被更冷静、更审慎的评估所逐步取代。AI是否能真正改善患者结局,并不只取决于理想条件下的技术表现,更取决于它如何嵌入复杂、拥堵且资源受限的真实临床系统。LungIMPACT试验结果提示,AI在临床实践中的价值实现需要超越“技术直接植入”的思路,转向系统整合的模式。这不仅对技术开发提出更高要求,也对临床研究者与政策制定者带来新的研究任务。

查阅更多发布过的专业述评,请点击下方输入疾病/关键词即可快速检索

Dr.LiuRui的智能问答