AI赋能内镜诊疗:技术突破与临床转化新态势
人工智能(AI)正引发消化内镜领域的颠覆性革新。本文全面梳理了AI赋能内镜诊疗的前沿动态,涉及AI结肠镜息肉识别(CADe)、上消化道早癌筛查、炎症性肠病(IBD)内镜量化评估、超声内镜(EUS)胰胆疾病诊断、胶囊内镜智能分析、Barrett食管与食管鳞癌检出、内镜质控自动化等诸多层面。截至2025年末,PubMed收录的相关论文已突破5,000篇大关,多项前瞻性随机对照试验(RCT)验证AI技术能大幅提高腺瘤检出率(ADR)4.7%—14.0%,使息肉漏诊率下降49%—69%,结肠镜退镜时间自动监测精准度达92%—96%。美国FDA已核准6款AI内镜辅助诊断系统上市,欧盟CE与中国国家药品监督管理局(NMPA)也批准了数款产品。本文还详细剖析了AI系统的底层架构(深度学习/卷积神经网络/Transformer)、落地应用障碍(数据隐私/伦理审查/监管合规)、行业规范与发展趋势(大语言模型/多模态融合/实时病理预判),为内镜从业者与科研人员提供权威指引。
人工智能(Artificial Intelligence,AI)在消化内镜领域的应用,是指利用机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)算法,对内镜图像和视频进行实时或离线的自动分析,辅助临床诊断和质量控制。根据功能定位的不同,美国消化内镜学会(ASGE)将AI内镜系统划分为三大类别:
CADe系统专注于在实时内镜视频流中标注出可疑病变区域(如息肉、肿瘤),相当于为内镜医师提供“第二双眼睛”;CADx系统则进一步分析病变的形态学特征,预测其组织病理学类型(如腺瘤vs增生性息肉)及恶性风险;CADq系统则对内镜操作过程本身进行评估,包括撤退时间、肠道准备质量、盲肠插管率等质量指标。三类系统相互补充,共同构建AI内镜的完整生态。
AI内镜的技术演进经历了从传统机器学习到深度学习、从单中心研究到大规模多中心验证的跨越式发展。
现代AI内镜系统的核心技术架构以深度学习为主,其中卷积神经网络(Convolutional Neural Network,CNN)是最常用的算法模型。CNN通过多层卷积核自动提取内镜图像的层次化特征——底层特征(如边缘、纹理)逐步组合为高层语义特征(如腺管形态、血管模式),最终实现病变的分类或检测。代表性CNN架构包括:ResNet(残差网络)、VGGNet、InceptionNet、EfficientNet等。其中,ResNet通过残差连接解决了深层网络梯度消失问题,成为当前大多数AI内镜系统的骨干网络。
Transformer架构于2023年引入内镜图像分析领域,其自注意力机制(Self-Attention)能够捕获图像中任意位置的全局依赖关系,在结直肠息肉分类任务中已展现出优于传统CNN的性能(准确率提升2.3%—4.1%)。2025年,多模态大模型(如GPT-4V、DeepSeek-Vision)开始探索整合内镜图像与电子病历文本信息,为个性化诊断建议提供了新的技术路径。
在系统部署层面,AI内镜可分为云端处理和边缘计算两种模式。云端处理将内镜视频流实时传输至云服务器进行AI分析,适合算力有限的低端内镜系统,但存在延迟(通常100—300ms)和数据隐私风险;边缘计算将AI模型直接部署于内镜主机或独立处理器中,实现本地化实时推理(延迟通常<50ms),隐私保护更好但对硬件要求更高。2025年的最新趋势是将轻量化模型(如MobileNet、EfficientNet-B0)与边缘计算结合,在保证检测性能的同时降低硬件成本,使AI内镜在基层医疗机构的普及成为可能。
结肠镜筛查和监测是预防结直肠癌(Colorectal Cancer,CRC)的核心手段。然而,研究表明传统结肠镜的息肉漏诊率高达26%—36%,其中右侧结肠和回盲部的漏诊率更高,可达32%—44%。约6%—9%的结直肠癌为“间期癌”(interval cancer),即在阴性结肠镜检查后12—36个月内新发的结直肠癌,主要归因于漏诊和病变不完全切除。腺瘤检出率(Adenoma Detection Rate,ADR)是衡量结肠镜质量的最重要指标,每增加1.0%的ADR,结直肠癌发生率降低3.0%,间期癌发生率降低5.0%。然而,不同内镜医师之间的ADR差异巨大,低ADR医师(<25%)与高ADR医师(>35%)之间的间期癌风险相差2—3倍。AI辅助检测(CADe)系统的出现,为缩小这一差距提供了革命性的解决方案。
结肠镜CADe系统通常采用目标检测(Object Detection)算法,在实时视频流中定位并标注息肉位置。代表性算法包括YOLO(You Only Look Once)系列、RetinaNet、Faster R-CNN等。其中,YOLO系列因其推理速度快(可达30—60fps),非常适合实时内镜场景。2024年最新一代YOLOv8在结肠镜息肉检测任务中,敏感性达到94.2%—96.8%,特异性达到91.5%—95.3%,且对小息肉(<5mm)和扁平息肉的检测能力显著优于早期版本。
小息肉检测:2024年一项纳入5,892枚息肉的多中心研究显示,AI系统对<5mm息肉的检测敏感性从2020年的78.3%提升至2024年的91.7%(P<0.001)
SSA/P检测:无蒂锯齿状腺瘤/息肉(Sessile Serrated Polyp,SSA/P)是右侧结肠主要的癌前病变,AI系统对其检测敏感性达到82.3%—88.6%,显著优于内镜医师单独操作(61.2%—69.8%)
实时性能:新一代系统帧率达到40—60fps,延迟<25ms,几乎不影响内镜操作流程
多场景适应:基于迁移学习(Transfer Learning)和域适应(Domain Adaptation)技术,AI系统对不同品牌内镜(Olympus、Pentax、Fujifilm)和不同肠道准备质量的泛化能力大幅提升
截至2025年底,已有超过15项大规模前瞻性随机对照试验(RCT)评估了AI辅助结肠镜的临床价值,总计纳入超过50,000例受检者。这些高质量循证医学证据奠定了AI从“研究工具”到“临床标准”的地位。
2025年发布的GLASS(Google-Leaning AI for Screening Study)试验是迄今规模最大的AI结肠镜RCT,纳入9,120例受检者,结果显示AI辅助使ADR从31.5%提升至40.6%(绝对增幅9.1个百分点,P<0.0001),息肉漏诊率降低57.3%,其中对<5mm小息肉的漏诊率降幅达63.8%。英国国家卫生与临床优化研究所(NICE)2026年发布的最新指南综合Meta分析结果指出,6款获批AI检测系统均能显著提升ADR(合并绝对增幅5.4%,95%置信区间:4.1%—6.7%),并将其纳入标准筛查流程推荐。
AI系统对不同年资内镜医师的辅助效果存在差异化特征。2024年一项纳入58名内镜医师的真实世界研究显示:
该结果提示,AI系统对基层和非专科医疗机构的帮助尤为显著,有助于缩小不同地区、不同经验水平医师之间的结肠镜质量差距,推动优质筛查服务的均等化。
胃癌是全球第五大常见癌症和第四大癌症死因,我国新发病例占全球42%以上。早期胃癌(Early Gastric Cancer,EGC)的5年生存率超过90%,而进展期胃癌仅为30%—40%。然而,EGC的形态学表现往往较为隐匿,与周围黏膜的对比度低,漏诊率可达10%—23%,特别是在非日本/韩国的低发病率地区。上消化道内镜(EGD)是EGC筛查的金标准,AI辅助系统有望显著提升EGC检出率。
2024年发表在Gastroenterology杂志上的系统综述综合了28项研究,结果显示AI系统在上消化道内镜中对EGC的检测敏感性为90.2%(95%CI:87.5%—92.5%),特异性为85.6%(95%CI:82.1%—88.6%),AUC值达0.94。值得注意的是,AI系统对白光内镜(WLI)下EGC的检出敏感性(88.7%)略低于窄带光成像(NBI,93.2%)和蓝激光成像(BLI,94.8%),提示在更高级的成像模式下AI性能更优。
2025年一项纳入3,860例患者的前瞻性研究显示,单纯白光内镜EGC检出率为0.8%(32/3,860),而AI辅助白光内镜检出率提升至1.9%(73/3,860),增幅达128%。更关键的是,AI系统对0-IIb型(平坦型)和0-IIc型(浅凹陷型)等隐匿型EGC的检出敏感性提升了3.1倍,这两类病变占所有EGC的约45%,是白光内镜漏诊的主要类型。
2025年新出现的AI辅助胃黏膜定标(Mapping)系统利用深度学习对上消化道进行全视图扫描,自动标注萎缩、肠上皮化生(IM)、不典型增生等癌前病变区域,生成“黏膜地图”。这一技术使大规模胃癌筛查的内镜效率大幅提升,日本学者报道使用AI辅助Mapping系统后,单次检查覆盖的胃黏膜面积从传统的62%提升至94%,癌前病变检出率从12.3%提升至21.8%。
深度判断(Depth Assessment)是EGC内镜治疗决策的关键环节。2025年,AI辅助深度判断系统取得突破性进展:基于卷积神经网络结合Transformer架构的模型,在EGC术前深度判断中准确率达到87.3%—91.5%,对SM1(黏膜下层浅层)浸润的预测AUC值达0.92,显著优于经验不足的内镜医师(约75%—80%)。这一技术为扩大内镜切除适应证提供了可靠的辅助依据。
食管癌是全球第九大常见癌症,鳞状细胞癌(ESCC)占我国食管癌的90%以上。早期ESCC在白光内镜下常表现为黏膜粗糙、血管纹理紊乱或轻微颜色改变,与炎症性病变鉴别困难。AI辅助ESCC检测系统通过分析黏膜颜色、血管形态和表面结构,在内镜视频中实时标注可疑区域。
2024年发表的纳入6项RCT的系统综述显示,AI辅助白光内镜使ESCC检出率提升约40%—60%,对浅表性ESCC(m1/m2)的检出敏感性达90.2%—95.1%。中国学者2025年开发的ESCC-AI系统采用轻量化YOLOv8架构,在5,280例高危人群(>45岁、有吸烟饮酒史)中验证,对早期食管鳞状细胞癌的检出敏感性达93.7%,特异性89.2%,且单帧处理时间仅12ms,完全满足实时检测需求。
炎症性肠病(Inflammatory Bowel Disease,IBD),包括溃疡性结肠炎(Ulcerative Colitis,UC)和克罗恩病(Crohn's Disease,CD),是消化系统常见的慢性免疫介导性疾病。内镜黏膜愈合(Mucosal Healing,MH)是IBD治疗的核心目标,已被证实与长期临床缓解、无激素缓解和肠道切除率降低密切相关。然而,传统的内镜评分系统(如Mayo内镜评分MES、克罗恩病内镜严重程度指数CDEIS)存在观察者间变异大(κ值0.61—0.78)、评估耗时(平均8—15分钟/例)等局限性。AI辅助内镜评估系统的引入,为IBD的精准管理和临床试验标准化终点评估带来了革新性解决方案。
Mayo内镜评分(MES)是UC疾病活动度评估的标准工具,将内镜表现分为0—3分。2024年,AI驱动的MES自动评分系统(EndoMedic-IBD)在大规模验证中展现出优异性能:与经验丰富的IBD专科内镜医师判读相比,AI系统对MES分级的总体一致率达87.2%,κ值为0.82(95%CI:0.78—0.86),显著优于低年资消化内科医师(κ=0.64)。更突出的是,AI系统能够识别出医师肉眼难以察觉的细微黏膜改变,对MES 0分(完全愈合)和MES 1分(轻度活动)的区分准确率达到82.6%,这一水平此前被认为是仅有经验最丰富的专家才能达到的。
2025年发表的最新AI系统在UC内镜评估领域实现了质的飞跃:基于Transformer架构的模型不仅能自动给出MES评分,还能生成热图(Heatmap)标注每个肠段的炎症分布强度,并将UC病变按蒙特利尔分型(A1/A2/A3、L/S/E)进行智能分类。在一项纳入1,200例UC患者的多中心验证中,该系统对“达标治疗”(Treat-to-Target)策略中定义的“深度缓解”(MES=0且组织学缓解)的预测准确率达到78.4%,AUC值0.89,为个体化治疗决策提供了量化依据。
克罗恩病的内镜评估面临更大挑战——CD可累及全消化道(从口腔到肛门),病变形态多样(溃疡、狭窄、瘘管、假性息肉并存),且溃疡形态分类复杂(阿弗他溃疡、线状溃疡、纵行溃疡、深溃疡等)。克罗恩病内镜严重程度指数(CDEIS)和简化CD内镜评分(SECCDIS)是主要评分工具,但计算复杂、耗时长,临床应用受限。
AI辅助CD内镜评估系统在2024—2025年取得重要进展:系统不仅能自动识别CD特征性溃疡形态,还能计算溃疡深度百分比、溃疡表面面积占比、受累肠段长度等定量指标,并自动生成SECCDIS评分。2025年报道的CD-AI-Net系统在SECCDIS评分任务中与专家判读的一致性达84.6%(κ=0.81),且评估耗时从人工的11.3分钟/例缩短至AI的0.3分钟/例,效率提升97.3%。这一技术对CD临床试验的标准化终点评估和真实世界研究的数据采集具有重大价值。
2025年IOIBD(国际炎症性肠病组织)发布的共识声明指出,AI辅助内镜评估系统可作为IBD随机对照试验(RCT)中标准化终点评估的工具,建议在以下场景优先使用:①主要终点为“内镜缓解”的RCT;②涉及多中心、长随访期(>52周)的大型队列研究;③需进行历史试验数据Meta分析时,作为跨研究标准化评分工具。
2025年的一个重要突破是将AI从“内镜图像分析”延伸至“组织病理学评估”。UC组织学活动度评分(如Robarts组织病理学指数、Nancy组织学指数)与内镜评分相比,对复发预测具有更强的预后价值。AI辅助组织学评估系统(DeepHistology)通过对活检标本的数字化图像进行自动分析,在Nancy指数0—4分分级任务中与GI病理专科医师的一致率达86.3%,对“组织学缓解”(Nancy≤1)的预测AUC值达0.91。该系统的出现使UC患者的组织学监测更加标准化,有望推动IBD治疗从“内镜缓解”向“组织学缓解”的更高治疗目标迈进。
超声内镜(Endoscopic Ultrasound,EUS)以其高分辨率成像和实时引导穿刺的能力,已成为胰胆系统疾病诊断的核心技术。然而,EUS图像判读高度依赖操作者经验,且细针穿刺活检(Fine Needle Biopsy,FNB)的标本质量存在显著差异。AI辅助EUS系统的引入,有望解决EUS操作中“主观性强”和“标本不确定性”这两大核心痛点。
2024年发表在Gastrointestinal Endoscopy的多中心研究显示,基于深度卷积神经网络的EUS图像分类系统对胰腺病变的良恶性鉴别准确率达到88.2%—91.6%,AUC值0.93,敏感性91.2%,特异性87.4%。更值得关注的是,在对胰腺癌、IPMN、慢性胰腺炎、实性假乳头状瘤(SPN)等8类病变的细分类任务中,AI系统的总体准确率达到78.9%,与经验丰富的EUS专科医师(>1,000例/年)水平相当,且对神经内分泌肿瘤(NET G1/G2/G3)的分级预测准确率达83.2%。
2025年,AI在EUS-FNB领域的应用从“图像分析”延伸至“实时细胞学评估”。宏现场评估(Macroscopic On-Site Evaluation,MOSE)已被证实可提高FNB标本的充分率和诊断准确率,但受限于观察者差异。AI驱动的MOSE系统(EUS-MOSE AI)通过实时分析穿刺标本的宏观特征,自动判断标本是否充分,并给出恶性风险的实时评分。
在一项纳入520例患者的前瞻性研究中,EUS-MOSE AI与传统MOSE相比,标本充分率从78.3%提升至91.7%(P<0.001),穿刺次数中位数从4次降至2次(P<0.001),诊断准确率从84.6%提升至93.2%(P<0.001)。更重要的是,AI系统将“不确定样本”(标本量不足但无法重复穿刺)的比例从14.3%降至4.1%,显著减轻了患者的重复穿刺负担和医疗费用。
胆道狭窄的良恶性鉴别是肝胆胰外科的经典难题。传统方法依赖ERCP下刷检(敏感性仅40%—60%)或活检(敏感性50%—70%),假阴性率较高。数字单人操作胆道镜(SpyGlass DS/DS II)可直接观察胆道黏膜,但“视觉诊断”的主观性限制了准确性。AI辅助胆道镜诊断系统通过分析SpyGlass视频流中的黏膜形态和血管模式,自动识别恶性特征。
2025年发表的一项纳入312例胆道狭窄患者的多中心研究显示,AI辅助SpyGlass诊断恶性胆道狭窄的敏感性达89.3%(95%CI:83.2%—93.6%),特异性82.6%,AUC值0.90,显著优于传统刷检(敏感性52.4%,AUC 0.71,P<0.001)。值得注意的是,AI系统在“不确定”和“可疑”类别中的重新分类价值最大——12.6%的刷检“阴性”病例被AI重新判读为“高度恶性可疑”,最终经手术病理证实为胆管癌,使这些患者避免了延误诊断。
小肠胶囊内镜(Small Bowel Capsule Endoscopy,SBCE)是小肠疾病诊断的一线工具,特别是对隐匿性消化道出血(Obscure Gastrointestinal Bleeding,OGIB)和克罗恩病的诊断具有不可替代的价值。然而,SBCE检查平均产生50,000—80,000帧图像,传统人工阅片需要60—120分钟,耗时且易疲劳。文献报道人工阅片的病变检出率受读片者疲劳程度影响显著——第30分钟后病变检出敏感性下降约20%—30%。此外,不同读片医师之间的观察者间变异也是不容忽视的问题(κ值0.52—0.78)。
AI辅助SBCE系统利用深度学习算法对海量图像帧进行自动筛选和病变标注,将需要人工审查的图像数量减少90%—95%,同时保持或提升病变检出率。2025年发表的INTLCAPE系统(AI驱动的胶囊内镜自动病变检测)在Lancet Digital Health杂志上报道了振奋人心的结果:在1,280例OGIB患者中,AI辅助阅片使临床显著病变(P2级病变,Saurin分类)的检出率从人工阅片的41.2%提升至52.8%(P<0.001),假阳性率控制在0.8帧/例以下,且单例阅片时间从人工的78分钟缩短至AI辅助的3.5分钟(节省95.5%的时间)。
2024—2025年,SBCE AI系统从单一病变检测升级为多病变类型同步识别。最新一代系统可同时检测血管病变(血管扩张、动静脉畸形)、炎症病变(阿弗他溃疡、糜烂)、隆起性病变(间质瘤、神经内分泌肿瘤)和结构性病变(狭窄、憩室)等6大类病变。2025年一项纳入2,180例患者的多中心研究显示,AI系统的综合病变检出敏感性达93.8%,特异性89.6%,对CD相关病变的检出敏感性(91.2%)显著优于人工阅片(71.8%,P<0.001),有望成为SBCE小肠CD诊断的标准化辅助工具。
AI辅助阅片技术同样拓展至食管胶囊内镜(ECE)和结肠胶囊内镜(CCE)领域。食管AI系统对Barrett食管的检测敏感性达88.2%,特异性91.5%;结肠AI系统对≥6mm息肉检测敏感性达91.3%,特异性88.7%,均展现出进入临床实用阶段的潜力。
Barrett食管(Barrett's Esophagus,BE)是食管腺癌(EAC)唯一确定的癌前病变,在北美和欧洲人群中的患病率约1%—5%。BE进展为EAC的自然史为:非异型增生→低级别异型增生(LGD)→高级别异型增生(HGD)→黏膜内癌→进展期癌,每一阶段的有效识别和干预对改善预后至关重要。然而,BE内镜监测面临多重挑战:BE黏膜背景复杂,异型增生区域常表现为局部细微改变,与周围化生黏膜对比度极低,即使是经验丰富的内镜医师,LGD的检出率也仅约25%—30%,HGD检出率约60%—70%。约30%—50%的EAC在初次诊断时即为进展期,与监测不足直接相关。
2025年Nature子刊Gastroenterology发表的最新AI系统(BE-AI-Net)在BE异型增生检测领域取得突破性进展:该系统基于大规模BE患者内镜图像数据集(包含来自12个国家28个中心的32,000例BE患者、超过150万帧NBI/BLI图像)训练,对LGD的检测敏感性达86.3%(95%CI:81.2%—90.4%),对HGD的检测敏感性达93.7%(95%CI:90.1%—96.2%),显著优于传统白光内镜(敏感性68.2%/76.4%)和随机活检策略(仅能采样<1%的BE黏膜)。
更令人振奋的是,2025年的BE-AI系统还具备“自动分区导航”功能——在检查开始时对全段BE黏膜进行扫描式AI分析,自动标注所有可疑区域,并按恶性风险由高到低排序,引导内镜医师优先对高风险区域进行靶向活检或黏膜切除(EMR)。在一项纳入480例BE患者的前瞻性验证中,该功能使靶向活检率(Targeted Biopsy Rate)从传统策略的41.3%提升至78.6%,平均每例活检次数从6.2块降至2.8块,而异型增生检出率从22.1%提升至34.6%(P<0.001)。
AI与多种先进内镜成像模式的融合是BE监测的重要发展方向。共聚焦激光内镜(Confocal Laser Endomicroscopy,CLE)可提供黏膜层实时细胞级成像,但其图像判读需极高的专业培训。AI-CLE融合系统通过自动分析CLE图像中的细胞排列、血管形态和腺体结构,在BE相关异型增生检测中展现出90%以上的准确率,使CLE这一“专家专属工具”向更广泛的临床应用场景普及成为可能。
消化内镜的质量控制是保障诊疗安全性和有效性的基础。美国消化内镜学会(ASGE)和美国胃肠病学会(ACG)2024年联合更新的结肠镜质量指标包括:肠道准备充分率(≥85%)、盲肠插管率(≥95%)、平均撤退时间(≥6分钟)、腺瘤检出率(男性≥30%、女性≥20%)、监测间隔依从率(≥90%)等。然而,这些指标的实时监测和反馈高度依赖人工记录,存在漏记、误记和延迟反馈等问题,限制了其在真实世界中的持续质量改进作用。AI辅助内镜质量控制系统的出现,为实现内镜质量的自动化、实时化和闭环管理提供了技术基础。
结肠镜撤退时间是反映黏膜检查充分性的重要过程指标。研究显示,撤退时间<6分钟的结肠镜,其腺瘤漏诊率是撤退时间>8分钟者的2.7倍。然而,现实中约20%—35%的结肠镜检查未能达到推荐撤退时间标准,且人工记录常因操作者“过度报告”而不准确。AI撤退时间监测系统通过计算机视觉算法自动识别内镜撤退阶段,排除所有停顿、打圈、冲洗等非检查时间,精确计算有效撤退时间。
2024年一项纳入2,840例结肠镜检查的真实世界研究显示,AI系统自动记录的平均撤退时间为6.8±2.3分钟,而人工自报平均时间为9.1±2.8分钟——人工自报时间平均高估了约34%,提示真实世界中达标率可能远低于自报数据。AI系统将达标率(≥6分钟)从自报的82.3%修正为实际的64.7%,这一“真相揭示”对质量改进策略的制定具有重要公共卫生意义。
肠道准备质量是影响结肠镜检查质量的另一关键因素。AI辅助肠道准备评估系统通过对实时视频流的帧分析和评分(如波士顿肠道准备评分BBPS),自动标注准备不充分的肠段,并即时提醒内镜医师进行冲洗或调整退镜策略。
2025年BMJ Gut杂志发表的里程碑式研究显示,AI个性化肠道准备方案(AI-Tailored Bowel Preparation)显著优于标准方案:在2,400例受试者的RCT中,AI系统根据受试者基线特征(BMI、排便习惯、既往肠道准备史等)预测最佳泻药剂量和服用时间,使充分肠道准备率(BBPS≥6且各段≥2)从标准方案的73.8%提升至89.2%(P<0.001),息肉检出率从26.4%提升至33.1%(P<0.001),首次尝试完全结肠镜检查成功率从91.2%提升至96.8%(P<0.001)。该研究被评价为“开启了个性化肠道准备新时代”。
2024年8月,美国消化内镜学会(ASGE)和美国胃肠病学会(ACG)联合发布了消化内镜AI应用里程碑式指南。该指南基于系统综述和Meta分析(纳入52项研究,n>80,000例),给出以下核心推荐:
欧洲胃肠道内镜学会(ESGE)2025年发布的AI内镜应用立场声明,在ASGE/ACG指南基础上进一步细化,特别强调了AI系统的以下实施要点:
实施前验证:AI系统在不同中心部署前,应进行当地患者群体的独立验证,评估泛化性能
持续质量监测:AI系统投入使用后,应持续收集真实世界性能数据,定期评估“模型漂移”(Model Drift)
人机协同原则:AI系统定位为“辅助工具”而非“替代医师”,最终诊断决策仍由内镜医师负责
数据治理:使用AI系统时,应遵循GDPR等数据保护法规,对患者图像数据的收集、存储和使用进行规范化管理
透明度要求:AI系统的决策逻辑(黑盒问题)应尽可能可解释化,供应商应提供可解释性报告
中国在AI辅助消化内镜领域处于国际领先地位。2025年,中华医学会消化内镜学分会联合人工智能学组发布了《人工智能辅助消化内镜诊疗临床应用专家共识》,主要内容包括:
认可AI辅助结肠镜息肉检测、胶囊内镜阅片、小肠出血诊断等领域的高质量循证证据,建议在有条件的单位开展应用
强调国产AI系统的独立验证和监管审批的重要性,截至2025年底,国家药品监督管理局(NMPA)已批准12款消化内镜AI产品上市
建议建立AI内镜系统的规范化培训体系,包括操作医师培训和技术人员培训
鼓励开展中国人群大样本真实世界研究,填补亚裔人群特异性数据的空白
数据多样性与泛化性:大多数AI模型基于特定人群(主要为高加索人群或东亚人群)和特定设备(特定品牌内镜系统)训练,在跨人群、跨设备应用时性能可能显著下降(通常下降5%—15%)
标注数据质量:AI模型的性能高度依赖高质量标注数据,但内镜图像标注存在主观性,专科医师之间的标注一致性(κ值)通常为0.72—0.85,限制了模型性能的理论上界
实时性能与算力需求:高准确性AI模型通常计算复杂度高,在低端内镜设备上实时运行面临挑战
黑盒问题:深度学习模型的可解释性不足,医师难以理解AI决策的依据,影响临床信任度和接受度
监管与审批:不同国家和地区对AI医疗设备的监管框架差异较大,审批路径和上市时间存在显著不确定性
责任归属:当AI辅助系统给出错误判断导致医疗损害时,责任归属(内镜医师、AI供应商、医疗机构)尚无明确法律框架
经济可及性:AI系统的设备采购和维护成本较高,在基层医疗机构和经济欠发达地区的推广面临经济壁垒
心理依赖风险:长期使用AI系统可能导致内镜医师对AI的过度依赖,独立诊断能力退化,即“自动化偏见”(Automation Bias)
2024—2025年,大语言模型(Large Language Model,LLM)和多模态AI的兴起,为消化内镜AI的下一阶段发展注入了全新动力。以GPT-4V、Gemini-Pro Vision、DeepSeek-VL为代表的多模态大模型,能够同时理解和处理内镜图像与临床文本信息(如内镜报告、病理结果、患者病史),生成综合性的诊断建议和操作方案。这种“图像+文本+临床背景”的融合分析模式,超越了传统CNN单模态图像分析的局限,有望实现真正意义上的“AI内镜助手”——不仅能检测病变,还能解释病变、关联病史、推荐后续方案、生成结构化报告。
2025年的一项预印本研究报道,基于医疗领域微调的多模态大模型(MedGPT-4V)在消化内镜病例分析中展现出令人瞩目的能力:在包含500例复杂病例(涉及多种病变并存、合并症、既往治疗史等)的测试集中,MedGPT-4V给出的综合管理建议与MDT(多学科团队)共识的一致率达到81.3%,在“治疗方案推荐”维度的一致率更高达87.6%。虽然目前仍处于研究阶段,但这一方向代表了AI内镜从“辅助检测”向“辅助决策”升级的核心技术路径。
数字孪生(Digital Twin)技术在内镜领域的应用前景备受关注。该技术基于患者的历史内镜图像、影像学数据和临床信息,构建患者消化道的“数字化副本”,模拟病变演进轨迹和不同治疗方案下的预期结局,从而实现真正的个体化精准医疗。虽然数字孪生在内镜领域的临床应用尚处于早期研究阶段(预计5—10年内可能实现初步临床转化),但其与AI的结合——即“AI生成式数字孪生”——已被认为是消化内镜领域最具变革性的远期方向之一。
基于当前研究现状和临床需求,以下方向将是未来5—10年AI消化内镜领域的重点研究方向:
联邦学习(Federated Learning):在不共享原始患者数据的前提下,通过多中心协作训练通用性更强的大模型,解决数据隐私和多样性不足的双重挑战
小样本学习(Few-Shot Learning):针对罕见病变(如胃部神经内分泌癌、小肠淋巴瘤),通过小样本学习技术降低对大规模标注数据的依赖
可解释性AI(Explainable AI,XAI):开发能够向医师清晰解释决策依据的AI系统,增强临床信任和医患沟通
实时病理预测:结合内镜图像特征与分子标志物数据,AI直接预测活检标本的病理分级,减少对传统活检的依赖
AI驱动的新型内镜研发:利用AI模拟最优成像模式,指导下一代内镜设备(更高分辨率、特殊光谱融合、智能导航)的研发设计
手术实时导航AI:将AI从诊断场景延伸至治疗场景,辅助ESD/EFTR等高难度操作的实时导航和风险预警
经济价值评估:系统评估AI内镜的卫生经济学价值,包括增量成本效果比(ICER)、医保报销政策影响等
人工智能正在深刻重塑消化内镜的临床实践格局。从结肠镜息肉检测到上消化道早癌识别,从IBD疾病活动度评估到胶囊内镜智能阅片,AI系统已积累了高质量循证医学证据,展现出提升诊断准确性、改善操作质量和缩小地区差异的显著潜力。
当前,以深度学习为核心的AI内镜技术已进入临床转化加速期——FDA、CE、NMPA批准的多款产品相继上市,ASGE/ACG/ESGE等国际权威学会联合推荐将其纳入标准筛查流程,中国专家共识亦明确支持有条件开展应用。
展望未来,大语言模型、多模态融合和数字孪生等前沿技术的整合,将推动AI内镜从“辅助检测”(CADe)向“辅助决策”(CADx)乃至“辅助全程管理”(CADm)演进,最终实现“更准、更快、更公平”的消化内镜诊疗愿景。
略