AI在心脏搭桥手术评估中的表现如何？305例研究揭示真相

发布时间：2026-04-04 20:41阅读：15

2026年美国心脏病学会年会（ACC.26）期间，来自中国医学科学院阜外医院心血管外科的袁昕教授代表研究团队公布了CAMERA研究的最新成果。 袁昕教授为阜外医院心血管外科主任医师，长期从事冠状动脉旁路移植术（CABG）的临床与研究工作，此次报告由其担任第一作者。本文将对这项研究的主要内容进行介绍和解读。

一

研究背景与科学问题

心脏外科手术的质量控制，一直是保障患者安全的关键环节。手术技术的高低，直接影响着搭桥手术后血管是否通畅、患者是否能顺利康复。然而，如何客观、准确地评估外科医生在真实手术中的操作技术，一直以来都是一个难题。

传统的评估方法存在缺陷：主要依赖上级医生的主观判断，标准不统一，同时耗费大量的人力和时间资源，在大规模推广上面临挑战。因此，能否找到一种更客观、更高效的评估方式，是心外科培训和质量管理领域长期未解决的问题。

近年来，人工智能（AI）在手术技能评估领域显示出潜力。2023年发表于《美国医学会杂志·外科学》（JAMA Surgery）的一项研究，已在腹腔镜乙状结肠切除术等腹腔镜手术的真实术中场景中验证了AI评估手术技能的可行性，其AI置信度评分与专家评分的相关系数达到0.81。然而，真实的心脏搭桥手术环境远比腹腔镜手术复杂——术野深、操作精细、心脏搏动干扰等因素都构成巨大挑战。AI在真实心脏手术场景下的有效性此前从未被系统研究。

正是基于这一空白，CAMERA研究应运而生，旨在验证AI评分与人类专家评分的一致性，并探索AI作为客观手术技能评估工具的可能性。

二

研究设计与技术创新

CAMERA是一项前瞻性、单中心观察性研究，在中国医学科学院阜外医院进行。研究纳入了年龄≥18岁、接受择期CABG手术并完成术中全程视频记录的患者，手术由累计完成≥50例CABG的外科医生执刀。研究聚焦于LIMA-LAD吻合操作，即将左乳内动脉（LIMA）与左前降支（LAD）进行吻合，这是CABG手术中最关键的技术步骤。

视频采集：立体视觉系统

研究团队专门配置了「四目手术摄像系统」（Quad-Eye Surgical Camera），通过4路同步4K摄像头，同时采集手术区域的特写镜头与全景镜头，为AI提供立体视觉信息，确保视频质量满足AI分析的需求。内部验证集共采集305例视频（2025年1月至4月），另从外部机构获取47例视频用于外部验证。

图2：研究设计概览——视频采集步骤

专家评分：七维度技术评分量表（双盲评分流程）

每段手术视频均由5名高级心脏外科医生以双盲方式独立评分，采用经过验证的七维度技术评分量表（OSATS，包含流畅性、创面整洁度、与第一助手配合等7个维度，每项5分，最终换算为百分制），取中间3个评分的均值作为最终专家分数，以最大程度减少个体主观偏差。

AI模型：两阶段深度学习框架

AI模型的开发分为两个阶段。第一阶段为预训练：利用VideoMAE V2框架，对大量无标签的CABG手术视频进行自监督学习，让模型自主提取手术操作中的时空特征。第二阶段为下游任务微调：以专家评分为标签，通过多层感知机（MLP）对模型进行精调，使其能够输出预测评分。

图3：研究设计概览——AI模型训练流程

研究的主要终点为AI评分与专家评分之间的组内相关系数（ICC，ICC数值越接近1表示一致性越高），以此量化AI与人类专家在技术评分上的吻合程度。

CAMERA研究的创新性体现在：这是迄今为止首个在真实开放式心脏手术环境中系统验证AI手术技能评估可行性的研究，超越了此前仅在模拟或腹腔镜场景中的探索；采用立体四目摄像系统，为AI提供接近人眼视角的三维视觉信息；研究同时设置内部验证与外部独立验证，增强了结果的可靠性。

三

主要研究结果

1、内部验证：AI与专家评分高度一致（ICC=0.70）

在305例内部验证集中，AI评分的均值为59.04±10.25分，专家评分均值为80.12±8.27分。两者之间的ICC为0.70（95%CI：0.69～0.72），达到了高度一致性的判定标准。Spearman相关系数为0.55（P<0.001），说明AI与专家在区分「谁的手术做得更好」这一问题上具有较好的排序一致性。

从Bland-Altman分析来看，AI评分系统性地低于专家约21分（均值差-21.08，95%一致性区间：-3.63～-38.54）。这一系统性偏差反映的是AI对操作质量的评判标准更为严格，但两者对外科医生技术水平的相对排名判断是一致的。

图4：内部验证结果——AI评分与专家评分的ICC汇总

图5：内部验证结果——散点图与Bland-Altman图

2、外部验证：一致性进一步提升（ICC=0.82）

在外部机构的47例独立验证集中，AI评分均值为61.35±9.79分，专家评分均值为78.14±8.26分。ICC提升至0.82（95%CI：0.80～0.83），Spearman相关系数达到0.75（P<0.001），系统性偏差约17分（均值差-16.79）。外部验证结果不仅复现了内部验证的结论，一致性指标还有所改善，初步提示该模型在外部人群中具有一定的可重复性，但仍需在更多机构和更大样本中进一步验证。

3、亚组分析

研究进一步对不同患者特征和外科医生特征进行了亚组分析。结果显示，ICC在绝大多数亚组中保持稳定。其中，年均CABG手术量较高的外科医生组，ICC略高于手术量较少的组，提示该模型对经验丰富外科医生的操作评分一致性更好。

四

探索性研究与潜在应用

1、AI评分可预测桥血管血流质量

研究团队在完成主要验证分析之外，进行了两项探索性研究。第一项探索性研究考察AI评分与传导时间血流测量（Transit Time Flow Measurement，TTFM）之间的关联。结果显示，AI评分与前降支血流量（β系数：1.39，95%CI：1.02～1.76，P<0.001）及搏动指数（β系数：-0.04，95%CI：-0.05～-0.03，P<0.001）均存在显著相关。具体而言，AI评分越高，桥血管血流量越大、搏动指数越低（搏动指数偏低通常提示桥血管通畅性更好）。

图6：探索性研究1——AI评分与桥血管血流及搏动指数的关联

这一发现具有潜在的临床意义：在不具备即时血流测量设备的基层医院、微创手术场景或分析历史手术录像时，AI评分或许可以作为评估桥血管质量的间接参考指标。

2、AI反馈干预可改善外科医生手术技术

第二项探索性研究考察了AI视频反馈作为教育干预手段的效果。研究纳入AI评分处于后50%的外科医生，在AI系统标注其「操作欠佳」的具体视频片段后，要求这些外科医生自主学习反馈内容1个月，随后重新录制手术视频并由专家进行盲法评分，比较干预前后的评分变化。结果显示，接受AI反馈干预的低分外科医生，手术技术评分平均提升了9.3分（P<0.001）。此外，70%的外科医生认为AI反馈是准确的；但在年龄较大、经验更丰富的高年资外科医生中，对AI反馈准确性的认可程度相对较低（P<0.05）。

图7：探索性研究2——AI反馈教育干预前后技术评分变化

五

局限性与未来研究方向

CAMERA研究在取得上述发现的同时，研究者也指出了现阶段的局限性。首先，AI评分系统性低于专家约20分，说明绝对数值上的完全一致尚未达到，AI目前更适合用于相对排名判断而非绝对分值的直接比较。其次，本研究分析范围仅限于LIMA-LAD吻合操作，其他类型的桥血管吻合（如静脉桥、右乳内动脉桥等）未纳入分析，模型是否同样适用仍需验证。第三，视频采集的标准化问题——如摄像角度、光线条件、画面清晰度等——是该系统在更大范围推广应用时面临的实际挑战。

基于上述局限，研究者提出了若干未来研究方向：扩展至其他类型桥血管吻合操作的评估；建立多模块AI模型，纳入更多患者临床信息，以探索AI评分与远期预后之间的关联；以及在更多中心、更大样本量中进一步验证模型的泛化能力。

六

结论

CAMERA研究首次在真实开放式心脏手术场景中验证了AI手术技能评估的可行性。内部验证ICC为0.70，外部验证ICC为0.82，证明AI与人类专家评分之间具有较高的一致性。研究者明确指出，当前阶段的AI模型更适合用于形成性反馈和外科教育，而非作为高风险的资质通过/淘汰判定工具。在探索性研究中，AI评分与桥血管即时血流质量的显著相关，以及AI反馈使低分外科医生技术提升9.3分的结果，展示了该系统在手术质量客观监测和外科医生培训改进两个方向上的潜在应用价值。

正如研究者总结所言，CAMERA模型有望成为扩大客观手术反馈覆盖面、辅助提升外科培训质量的有效工具，但在广泛推广前，仍需在更多机构和手术类型中开展进一步研究。

✩本文仅供医疗卫生等专业人士参考

← 上一篇：铜山区大许中学成功举办AI课堂研讨活动下一篇：AI会成为新的巴别塔吗 →