10个AI模型读片评估HER2：乳腺癌病理的“默契”与“分歧”

发布时间：2026-05-06 10:14阅读：13

在精准医学不断推进的今天，HER2的表达已经不再局限于简单的“阳性/阴性”二元判断。伴随抗体药物偶联物的快速问世，HER2低表达甚至极低表达的患者也被纳入靶向治疗的适用范围。与此同时，这种更精细的分层让病理评估面临新的难题：膜上染色往往只呈现出极其细微的差别，而这些细节可能直接影响患者能否获得新型靶向疗法。更关键的是，即便病理学家遵循统一的ASCO-CAP指南，在HER2低表达区域的判读上仍会出现明显的个人差异。于是，人工智能能否成为那只冷静、客观、可重复的“第三只眼”，就成了令人期待也值得检验的问题。

近日发表于《Modern Pathology》的研究，对10个由不同团队独立开发的AI模型在乳腺癌全切片图像中的HER2评估一致性进行了系统梳理与对比。结果既振奋人心，也发人深思：在HER2 3+这类高表达区域，模型之间几乎“同频”，一致性可达到97%以上；但在HER2低表达与中间表达这片灰色地带，模型间的差异程度与病理学家之间的差异相当。尤其在染色模式的微观解读、以及异质性区域的权重分配等环节，AI并未体现出超越人类的“绝对理性”。此外，当模型把结果判为HER2 0或1+时，各模型之间的匹配概率只有约60%，这与观察者变异所呈现的规律高度接近。

参考文献：DOI: 10.1016/j.modpat.2025.100944

一、研究背景

人表皮生长因子受体2（HER2）表达在乳腺癌中是一项关键的预后与预测性生物标志物。过去，HER2靶向治疗通常只针对HER2阳性肿瘤患者，也就是免疫组化（IHC）3+或原位杂交（ISH）扩增人群，并且有较明确的指南用于患者筛选。随着抗HER2抗体药物偶联物的出现，治疗适应症逐步延伸到HER2低表达与HER2极低表达人群。治疗版图的持续变化，使得精准且可重复的HER2评估成为指导临床决策所必需的环节。尤其是对“HER2低表达”与“HER2 0”的区分，一直被认为是难点；相关研究显示病理学家之间往往仅能达到中等水平的一致性。

美国临床肿瘤学会（ASCO）和美国病理学会（CAP）推出了标准化的HER2 IHC评分规则。该体系依据膜周染色的强度与完整性，将结果划分为0、1+、2+与3+。虽然在ASCO-CAP指南中，HER2低表达及HER2极低表达尚未形成正式定义，但随着抗体药物偶联物相关临床试验逐步推进（如DESTINY-Breast04和DESTINY-Breast06），其临床意义不断被强化。CAP在2025年3月的报告模板中已经加入了对HER2低表达与HER2极低表达的标准化表述，从而进一步凸显HER2 IHC评分在一致性与准确性方面的必要性。与此同时，HER2低表达解读本身具有主观性，且病理学家之间的评分差异可能进一步影响最终判读结果，进而干扰治疗决策。

尽管ASCO-CAP指南为HER2评估的标准化提供了重要支撑，但这些实际挑战提示：仍有必要寻找可互补的方案，来适配快速演进的临床需求。比如，通过数字病理与计算病理工具来提升评估的可重复性与标准化水平。值得注意的是，随着HER2低表达与极低表达分类的持续扩展，目前尚缺乏被广泛认可的参考标准或临床锚定阈值。这也意味着，需要构建标准化数据集，并建立与临床结局相关的基准，以便同时支撑病理学家与人工智能（AI）开展更可靠的评分。

数字病理技术结合高分辨率全切片成像（WSI）以及AI驱动的计算病理模型，为提高生物标志物量化的可重复性提供了有前景的路径。这类工具有助于提升诊断的精准度，降低观察者之间与观察者自身随时间产生的变异，并优化整体临床工作流程。然而，随着越来越多的AI模型被独立开发出来，彼此在同一临床场景下能否给出一致结果仍缺乏明确答案。更大规模的比较评估，能够帮助揭示不同模型之间变异的幅度和

← 上一篇：V聚场本周精彩活动：从AI到UP主，等你来嗨！下一篇：中国AI五年展望：现状、挑战与未来趋势 →