AI辅助宫颈细胞分级与宫颈癌精准诊断新突破
宫颈癌筛查面临的核心难题并非技术手段的匮乏,而是在大规模筛查实践中,如何实现细胞学判读的稳定、标准化与可扩展性。宫颈细胞学检查虽成本低廉、覆盖面广,但其结果高度依赖于细胞病理医师的个人经验,阅片过程耗时费力,且不同医师间的诊断一致性始终难以保证。
为应对这一挑战,本研究开发了一个名为AICCS(人工智能宫颈癌筛查)的宫颈细胞学分级人工智能系统,并在全切片图像层面进行了系统性评估。该系统并非简单地端到端取代人工判读,而是作为辅助工具,首先在细胞/局部图像层面识别异常细胞,进而在全切片层面综合相关特征完成分级判断,最终为病理医师提供辅助诊断参考。研究不仅进行了回顾性测试,还进一步通过多中心外部验证、前瞻性验证以及随机观察性试验,较为全面地评估了AICCS在真实临床筛查环境中的实际应用价值。
研究共纳入16,056名受试者,时间跨度从2016年1月至2020年12月。其中,来自中山大学孙逸仙纪念医院的11,468例数据用于模型开发,并按4:1比例随机划分为训练集(9316例)和内部验证集(2152例)。另外两家医院——广州市妇女儿童医疗中心和广州医科大学附属第三医院——分别提供了600例外部验证数据。研究者还额外构建了一个包含2780例的前瞻性验证队列,以及一个608例、按1:1:1比例分配到“病理医师单独阅片”、“AICCS单独判读”和“AICCS辅助病理医师”三组的随机观察性试验队列。
在回顾性开发数据中,研究者有意提高了阳性病例的比例,以便更充分地训练模型;而在用于检验临床可用性的前瞻性验证和随机观察性试验数据中,上皮内病变比例分别仅为4%和7.7%,更贴近日常筛查中3–8%的阳性率范围。
在样本质量控制方面,合格样本要求至少包含5000个可见且未被遮挡的鳞状上皮细胞;若细胞数量不足,或因血液、炎症细胞、重叠、固定不佳、过度干燥、污染等因素影响,且这些问题波及超过75%的鳞状上皮细胞,则该样本将被直接排除。
整体流程可分为三个阶段。细胞标注阶段:将宫颈细胞学玻片数字化获得全切片图像,由细胞病理医师在切片上完成异常细胞标注,异常细胞共分为六类,为后续模型训练提供监督信息。局部检测阶段:以全切片图像为输入,采用滑动窗口方式对整张切片进行逐区域扫描,切分出大量局部图像,并利用目标检测模型识别其中的异常细胞,得到异常细胞检测结果。全切片分类阶段:在局部检测结果的基础上,进一步统计整张切片相关的检测特征,并输入随机森林分类器完成切片层面的分级判断;与此同时,原始玻片仍可由病理医师结合显微镜阅片进行复核,最终形成诊断结论。
标注工作由6位拥有5年以上经验的细胞病理医师参与完成。每张全切片图像由两位医师独立判读,若结果不一致,则由资深专家进行复核。局部层面的异常细胞标注分两阶段进行:先人工标注一批,再用初步训练好的检测模型对整个切片进行滑动窗口推理,生成AI建议的关注区域,经病理医师复核后并入训练集。
在局部检测部分,研究者比较了RetinaNet和Faster R-CNN两种检测方案;在全切片分类部分,则比较了随机森林和深度神经网络两种分类模型。最终选定的组合是Retina-ResNet18-随机森林。在算法筛选阶段,该组合的AUC为0.922,灵敏度为0.906。
在局部检测中,RetinaNet结合特征金字塔网络,在不同尺度的特征图上分别设置类别分支和边界框回归分支,以识别异常细胞并输出其类别及位置信息。随后在全切片层面,基于局部检测结果提取整张切片的检测相关特征,例如不同类型异常细胞的预测置信度分布等,再将这些特征输入随机森林分类器,通过多棵决策树的投票结果完成整张切片的分类判断。
需要注意的是,全切片层面的最终类别与局部层面并非完全一一对应。由于ASC-H、HSIL和SCC在形态学及临床管理策略上更接近高级别病变,研究者在全切片层面将它们合并为HSIL+类别。因此,全切片层面的最终输出只有5类:NILM、ASC-US、LSIL、HSIL+、AGC。
在内部验证集及两个外部验证集中,AICCS在不同风险分层下均展现出较高的区分能力。根据临床管理需求,研究者将结果进一步分为ASC-US+、LSIL+和HSIL+三个亚组进行评估。结果显示,三个亚组在不同验证集上的AUC均维持在较高水平,且随着病变等级升高,模型的区分能力进一步增强。除AUC外,模型在回顾性验证中还保持了较高的灵敏度、特异度和准确率,各验证集的阴性预测值也处于较高水平,表明该系统在排除低风险样本方面具有较好的可靠性。
在SYSMH的前瞻性验证队列中,研究者比较了AICCS单独判读、病理医师单独阅片以及AICCS辅助病理医师三种方式的性能。结果显示,AICCS单独判读已具备较高的诊断效能,而在AI辅助下,病理医师的整体表现得到进一步提升。与病理医师单独阅片相比,AICCS辅助后,AUC、灵敏度、特异度和准确率均有显著改善。进一步的分层分析表明,在ASC-US+、LSIL+和HSIL+三个亚组中,AICCS辅助病理医师均表现出更高的AUC。
随机观察性试验用于进一步评估AICCS在更贴近真实临床流程中的应用价值。研究将受试者分为AICCS单独判读、病理医师单独阅片和AICCS辅助病理医师三组。结果显示,三组在不同风险分层下均取得较高AUC,但AICCS辅助病理医师组始终表现最佳。以ASC-US+为例,辅助组的AUC明显高于另外两组;在LSIL+和HSIL+亚组中,各组AUC均很高,但辅助组仍然占据优势。同时,AICCS辅助后在特异度和准确率上也优于单纯人工阅片,而灵敏度保持在较高水平。
总体而言,这项研究构建了一个面向宫颈细胞学全切片图像的人工智能辅助诊断系统AICCS,并在回顾性验证、前瞻性验证以及随机观察性试验中系统评估了其性能。AICCS采用“局部异常细胞检测 + 全切片分级判断”的两阶段策略,不仅在多中心数据中表现出良好的稳定性和泛化能力,而且在更接近真实临床场景的前瞻性队列和随机观察性试验中进一步证实了其应用价值。
当然,这项研究也存在一定的局限性。首先,模型的训练和验证建立在质量合格的液基细胞学切片基础之上,因此对于低质量样本或更复杂扫描条件下的稳健性仍需进一步验证。其次,虽然研究包含了外部验证和前瞻性验证,但随机观察性试验仍以单中心数据为主,后续仍需更多多中心、真实世界研究来进一步评估其临床推广潜力。总体来看,这项工作为宫颈细胞学AI辅助诊断的临床转化提供了较为完整的证据链,也为后续相关系统的优化与落地应用奠定了坚实基础。