标签

10个AI模型读片评估HER2:乳腺癌病理的“默契”与“分歧”

发布时间:2026-05-06 10:14来源:微信阅读:7

在精准医学不断推进的今天,HER2的表达已经不再局限于简单的“阳性/阴性”二元判断。伴随抗体药物偶联物的快速问世,HER2低表达甚至极低表达的患者也被纳入靶向治疗的适用范围。与此同时,这种更精细的分层让病理评估面临新的难题:膜上染色往往只呈现出极其细微的差别,而这些细节可能直接影响患者能否获得新型靶向疗法。更关键的是,即便病理学家遵循统一的ASCO-CAP指南,在HER2低表达区域的判读上仍会出现明显的个人差异。于是,人工智能能否成为那只冷静、客观、可重复的“第三只眼”,就成了令人期待也值得检验的问题。

近日发表于《Modern Pathology》的研究,对10个由不同团队独立开发的AI模型在乳腺癌全切片图像中的HER2评估一致性进行了系统梳理与对比。结果既振奋人心,也发人深思:在HER2 3+这类高表达区域,模型之间几乎“同频”,一致性可达到97%以上;但在HER2低表达与中间表达这片灰色地带,模型间的差异程度与病理学家之间的差异相当。尤其在染色模式的微观解读、以及异质性区域的权重分配等环节,AI并未体现出超越人类的“绝对理性”。此外,当模型把结果判为HER2 0或1+时,各模型之间的匹配概率只有约60%,这与观察者变异所呈现的规律高度接近。

参考文献:DOI: 10.1016/j.modpat.2025.100944

一、研究背景

人表皮生长因子受体2(HER2)表达在乳腺癌中是一项关键的预后与预测性生物标志物。过去,HER2靶向治疗通常只针对HER2阳性肿瘤患者,也就是免疫组化(IHC)3+或原位杂交(ISH)扩增人群,并且有较明确的指南用于患者筛选。随着抗HER2抗体药物偶联物的出现,治疗适应症逐步延伸到HER2低表达与HER2极低表达人群。治疗版图的持续变化,使得精准且可重复的HER2评估成为指导临床决策所必需的环节。尤其是对“HER2低表达”与“HER2 0”的区分,一直被认为是难点;相关研究显示病理学家之间往往仅能达到中等水平的一致性。

美国临床肿瘤学会(ASCO)和美国病理学会(CAP)推出了标准化的HER2 IHC评分规则。该体系依据膜周染色的强度与完整性,将结果划分为0、1+、2+与3+。虽然在ASCO-CAP指南中,HER2低表达及HER2极低表达尚未形成正式定义,但随着抗体药物偶联物相关临床试验逐步推进(如DESTINY-Breast04和DESTINY-Breast06),其临床意义不断被强化。CAP在2025年3月的报告模板中已经加入了对HER2低表达与HER2极低表达的标准化表述,从而进一步凸显HER2 IHC评分在一致性与准确性方面的必要性。与此同时,HER2低表达解读本身具有主观性,且病理学家之间的评分差异可能进一步影响最终判读结果,进而干扰治疗决策。

尽管ASCO-CAP指南为HER2评估的标准化提供了重要支撑,但这些实际挑战提示:仍有必要寻找可互补的方案,来适配快速演进的临床需求。比如,通过数字病理与计算病理工具来提升评估的可重复性与标准化水平。值得注意的是,随着HER2低表达与极低表达分类的持续扩展,目前尚缺乏被广泛认可的参考标准或临床锚定阈值。这也意味着,需要构建标准化数据集,并建立与临床结局相关的基准,以便同时支撑病理学家与人工智能(AI)开展更可靠的评分。

数字病理技术结合高分辨率全切片成像(WSI)以及AI驱动的计算病理模型,为提高生物标志物量化的可重复性提供了有前景的路径。这类工具有助于提升诊断的精准度,降低观察者之间与观察者自身随时间产生的变异,并优化整体临床工作流程。然而,随着越来越多的AI模型被独立开发出来,彼此在同一临床场景下能否给出一致结果仍缺乏明确答案。更大规模的比较评估,能够帮助揭示不同模型之间变异的幅度和