AI听诊器在英国初级保健中的心血管疾病筛查成效评估
点击关注,获取原文
「麻醉英文文献精读|拆解顶尖期刊,赋能临床科研」
一项名为TRICORDER的临床试验,旨在评估在英国基层医疗体系中引入人工智能(AI)驱动的智能听诊器,对于筛查三种主要心血管疾病的实际效果。尽管该技术在捕捉心脏信号方面展现出优异的算法性能,但初步的意向性分析显示,其在人群层面的应用并未能显著提升心力衰竭的诊断率。研究指出,这一结果主要归因于临床工作流程的兼容性问题,使得医生在日常繁忙的诊疗工作中难以持续有效地使用该设备。然而,针对实际接受了该设备检查的患者进行的分析则表明,AI技术确实能够显著提高心力衰竭、心房颤动以及瓣膜性心脏病的发现率。这项研究强调,医疗AI技术的成功应用,不仅取决于算法的精确度,更关键在于其能否与现有医疗流程实现无缝整合。因此,未来的推广重点应转向优化用户体验和系统集成,从而真正释放AI在早期疾病检测中的潜力。
心血管疾病一直是全球范围内导致死亡、发病率上升及医疗支出增加的主要病因,而诊断的延迟会严重影响患者的临床预后。在英国的国家医疗服务体系(NHS)中,心力衰竭(HF)、心房颤动(AF)以及心脏瓣膜病(VHD)这三种常见且可治疗的疾病,面临着严峻的诊断挑战,多数患者直到紧急入院后才被确诊。
具体而言,超过70%的心衰病例是在计划外的住院后才被确诊的,尽管其中一半的患者曾因相关症状在初级保健机构就诊,本有机会进行早期评估。对于射血分数降低(LVEF≤40%)的心衰患者,遵循指南的治疗方案能够改善生存率和生活质量,但这前提是能够临床早期发现。此外,高达四分之一的中风事件发生在先前未被诊断出心房颤动的患者身上;而未被发现的心脏瓣膜病则会导致非计划的医疗护理和紧急手术干预,大量占用医疗系统的资源。
尽管政策制定者一直强调心血管疾病早期发现的重要性,但面临巨大压力的初级保健团队,却缺乏简单易行且可扩展的即时诊断工具,以在常规诊疗中识别这些疾病。
具备人工智能(AI)功能的听诊器为填补这一差距提供了可能性。这类设备能够在常规心血管检查过程中记录单导联心电图(ECG)和心音图波形,并通过AI预测算法检测心衰、房颤和心脏瓣膜病。这些AI技术已展现出足够的临床和技术性能(如高灵敏度和特异性),并已获得用于常规临床的监管批准。
然而,尽管这些AI创新技术具有良好的性能特征和监管批准,它们在临床护理中的广泛应用却受限。在TRICORDER试验之前,缺乏在初级保健环境中,将临床有效性与具体实施环境结果相结合的前瞻性评估AI技术大规模实用性的随机试验。卫生系统的领导者和政策制定者迫切需要结合随机化设计和真实世界常规收集数据的试验,以评估这些AI方法的临床影响、可用性、成本,以及阻碍其在医疗机构中全面发挥作用的非技术性实施障碍。
基于上述背景,研究团队设计了TRICORDER试验。这项针对临床AI技术的首个集群随机对照实施试验,旨在产生真实世界证据,明确在常规初级保健中引入AI听诊器是否能切实提高心血管疾病(特别是心衰)的检出率,并识别在实际应用中面临的实施挑战和障碍。
TRICORDER是一项实用的、开放标签的、双臂集群随机对照实施试验(cluster-randomised controlled implementation trial)。试验主要在英国国家医疗服务体系(NHS)西北伦敦综合护理系统的初级保健诊所(包含全科医生、护士等医疗团队)中进行。
集群随机化:初级保健诊所被视为随机化的单位,按1:1的比例自动且隐蔽地分配到干预组或对照组。
不设盲:鉴于干预措施的客观性质,对参与者(包括诊所、临床医生和患者)进行设盲是不可行的。
干预组(AI听诊器组):被分配到干预组的诊所接受了1小时的培训,每家诊所最多配备6台AI听诊器。在常规临床检查中,临床医生可根据情况使用AI听诊器记录患者15秒的单导联心电图(ECG)和心音图信号。这些数据会上传至云端,由三种AI算法处理,并实时返回是否患有三种心血管疾病的二元预测结果(是或否):左心室射血分数降低(≤40%)、心房颤动(AFib)和瓣膜性心脏病(VHD)。AI设备未直接与电子健康记录(EHR)集成,需要医生根据临床判断和AI结果,遵循英国国家卫生与临床优化研究所(NICE)的指南安排后续检查(如钠尿肽测试、超声心动图)并手动录入结果。
对照组(常规护理组):不提供设备或培训,继续采用标准的NHS诊断路径进行常规护理。
主要终点:新编码确诊为心力衰竭(包含所有亚型)的发病率,以每1000患者年的发病率比(IRR)表示。
共同主要终点:按诊断地点分层的心力衰竭检出率(即在社区初级保健机构确诊 vs. 因住院急诊确诊)。
次要终点:心房颤动和瓣膜性心脏病的检出率、AI听诊器的性能特征(如敏感性、特异性)、设备使用率,以及临床医生报告的实施障碍和促进因素。
患者的随访期设定为12个月,直至其首次出现目标疾病的代码诊断、死亡、注销诊所注册或研究结束。
样本量与检验效能:研究假设组内相关系数(ICC)为0.01。基于背景发病率,研究设定了80%的检验效能(Power),以检测出干预组与对照组之间至少0.17/1000人的发病率差异。
基线数据:连续变量通过均值伴标准化均数差(SMDs)或中位数(四分位距)进行总结,组间差异通过双样本t检验和卡方(χ²)检验进行比较。
时间偏倚控制:随访时间严格从干预开始日(入组分配或培训日)起算,以尽量减少“不朽时间偏倚”(immortal-time bias)。
主要评估在全体人群层面部署AI听诊器的效果。
核心模型:主要分析在个体水平上进行,采用带有泊松分布的广义线性混合效应模型(generalised linear mixed effects model)。
校正群聚效应:由于是集群随机化试验,模型将初级保健诊所作为随机截距(random intercept),以调整群聚效应(clustering effect)。
随访时间调整:模型中加入了一个偏移量(offset),用于调整患者的随访时间(人时)和组间的随访时间差异。
研究还对过度离散(over-dispersion)和零膨胀(zero-inflation)进行了检验,以确保模型拟合的合理性。
旨在评估实际使用AI听诊器对患者疾病检出率的影响。
倾向性评分匹配(PSM):研究将干预组中至少接受过一次AI听诊器检查的患者,与对照组中接受过常规面对面问诊的患者进行1:1的倾向性评分匹配(卡钳值设为0.2)。
匹配变量:包括可能预测心血管结局的临床变量,如年龄、性别、种族、合并症(高血压、糖尿病、慢性肾病、冠心病、癌症、中风等)以及社会经济剥夺指数。
匹配后,同样采用广义线性混合效应模型(保留诊所级别的随机截距)来评估干预的真实效应。
时间-诊断(Time-to-diagnosis)生存分析:采用Kaplan-Meier方法及log-rank检验,比较确诊时间差异,以排除因随访不均、编码滞后或监测偏倚导致的检出率差异。
季节性与时间趋势:为排除季节性混杂因素的影响,研究拟合了负二项回归(negative binomial regression),并结合Friedman检验分析了年度及月度的发病率趋势。
剂量-效应探索:研究将各诊所的AI设备使用率按每1000患者年分为零使用、低频、中频和高频组,在个体与集群水平上评估“设备使用率”与“检出率”之间的关联性。
所有统计分析及建模均使用了Python(`statsmodels`包)和R语言(`glmmTMB`和`DHARMa`包)完成。
结果表明,在常规初级保健中实施人工智能(AI)听诊器,在全人群(整体实践)水平上并未显著提升心力衰竭、心房颤动或瓣膜性心脏病(VHD)的检出率,但对于实际接受了该设备检查的患者,其疾病检出率有显著增加。
心力衰竭(主要终点):干预组与对照组的新发心力衰竭诊断率无显著差异(发病率比 [IRR] 为0.94,95% CI 0.86–1.02)。同时,在社区诊断与医院诊断的比例(共同主要终点)上亦无显著差异。
其他心血管疾病:心房颤动(IRR 0.98)和瓣膜性心脏病(IRR 1.00)的整体检出率在两组之间同样无显著差异。
当研究重点放在实际接受过AI听诊器检查的患者(并与倾向性评分匹配的对照组患者进行对比)时,发现疾病的检出率显著增加:
此外,与对照组相比,实际使用AI听诊器的患者确诊这三种疾病的诊断时间也显著缩短。
使用率逐渐衰退:尽管在12个月内干预组进行了12725次患者检查,但设备的使用率呈稳步下降趋势。到第12个月时,近40%的诊所已完全停止使用。
主要应用障碍:调查反馈显示,持续使用的最大障碍是工作流程负担的增加。临床医生指出,缺乏与现有电子健康记录(EHR)系统的集成是最大的痛点,解决工作流的摩擦甚至比提供经济激励更为重要;此外,在实际操作中难以捕获足够质量的波形信号也是一大阻碍。
三种疾病预测算法在真实世界中均表现出超过90%的极高阴性预测值,这证明其作为辅助排除疾病的工具非常有潜力。
阳性预测值受限于基层医疗较低的基础患病率,表现各异:心力衰竭为0.30,心房颤动为0.64,瓣膜性心脏病为0.10。
综上所述,无论AI技术的算法性能如何,其在真实世界中产生的临床效益都直接受制于临床实施环境。只有解决技术与现有医疗工作流程的无缝集成问题,才能保证临床医生的持续使用,进而将技术潜力转化为人群级别的健康收益。
在12个月的意向性治疗(ITT)分析中,在基层医疗中大规模部署AI听诊器并未显著提高心力衰竭、心房颤动(房颤)或心脏瓣膜病(VHD)的整体检测率。然而,针对实际接受了AI听诊器检查的患者进行的遵循方案(Per-protocol)分析却显示了完全不同的结果:心衰的检测率显著增加(发病率比 IRR 2.33),房颤检测率也有所提升(IRR 3.45),VHD的检测率同样提高(IRR 1.92),并且整体缩短了诊断所需的时间。
这表明,如果AI听诊器能够按照预期被充分使用,它确实具有发现潜在病例的显著临床效用,且并没有因为产生虚假的安全感而导致病例遗漏。但这需要谨慎解读,因为愿意主动接受该设备检查的患者,可能本身预检测的患病概率就较高(例如患有高血压或糖尿病等合并症)。
为什么在整体人群中没有看到检测率的显著提升?主要原因在于设备使用率较低。AI听诊器在真实世界中的使用率随着时间的推移稳步下降,近40%的诊所在12个月时已完全停止使用该设备。
临床医生反馈指出,最大的使用障碍是设备增加了临床工作流程的负担。相比于单纯的财务激励,临床医生们更希望将AI设备的结果自动整合到现有的电子健康记录(EHR)系统中,以减少操作摩擦。研究将此与美国的EAGLE试验进行了对比:EAGLE试验将AI心电图预警直接嵌入EHR系统并触发自动化超声心动图转诊建议,因此获得了极高的使用率并成功提升了检测率。相比之下,TRICORDER中的AI听诊器需要独立操作且未与内部系统直连,凸显了工作流程整合在AI医疗设备落地中的关键影响。
讨论部分强调,AI算法较低的阳性预测值(PPV)主要是由于在未经筛选的基层医疗人群中,这些疾病的背景患病率本来就很低,而非算法本身存在严重的技术缺陷。例如,对于心脏瓣膜病而言,具有临床意义的严重瓣膜病变在未筛选人群中非常罕见,且研究依赖临床编码而非超声心动图确认,这也拉低了PPV。
因此,AI听诊器更应被视为现有临床诊断路径(如NICE指南要求的阶梯式检测)中的辅助“纳入(rule-in)”工具,而不是替代后续检查的独立筛查工具。有趣的是,一些被AI标记为心衰(射血分数≤40%)的“假阳性”病例,实际上可能是射血分数轻度降低(41-50%)的患者。这反映了心脏功能障碍是一个连续的演变过程,这些所谓假阳性患者同样可能是需要密切监测和早期干预的合适人选。
优势:该研究覆盖了近160万具有高度代表性(涵盖多种社会经济和种族背景)的注册患者,创新性地利用NHS的安全数据环境(SDE)进行真实世界追踪。特别值得一提的是,接受AI听诊器检查的患者中有56%是女性,这在很大程度上打破了历史上心血管疾病诊断研究中普遍存在的性别偏见,且在不同族裔间的使用也没有表现出明显的不平等。
局限性:由于研究高度依赖常规临床记录的编码来确定诊断结果,可能会受到基层编码习惯异质性的影响(例如对心衰亚型分类颗粒度不足)。此外,随访时间的不完全一致、医生的自主参与偏好,以及部分AI记录未能在系统中关联患者专属ID,都可能引入一定的数据偏差。
TRICORDER试验带来了实施科学上的一个至关重要的观念转变:证明AI算法在技术层面上具有高准确率是远远不够的;决定AI技术能否转化为人口级健康效益的核心,在于其能否无缝融入现有的临床工作流程以及是否能被临床医生广泛接受。未来的医疗AI创新必须将重心从单纯的“算法验证”,转移到研究和优化AI在资源紧张的真实医疗系统中的落地环境上。
尽管AI智能听诊器具备强大的疾病检测能力,但在常规初级保健中的大规模部署并未显著提高心力衰竭、房颤和瓣膜性心脏病的总体检测率,这表明将技术性能转化为实际临床效益高度依赖于临床医生的实际使用率以及设备与现有工作流程的有效无缝整合。