标签

Nature子刊重磅研究:预训练数据构成如何影响视网膜基础模型的泛化与公平性

发布时间:2026-05-18 10:12来源:微信阅读:4

《Nature Communications》刊登了一篇研究论文《Understanding pre-training data effects in retinal foundation models using two large fundus cohorts》。该研究首次借助英国与中国上海的两大超大规模眼底影像队列(各含90余万张图像),全面分析了预训练数据的组成特征对视网膜AI基础模型泛化能力与公平性的影响;研究结果显示,虽然基于不同地区数据训练的模型均表现出色的跨中心泛化性能,但预训练数据中年龄分布的差异会引起模型在老年与青年亚组间产生明显的公平性偏差,而性别与种族因素影响相对较小。这项研究从数据层面为医疗基础模型的透明化与高效开发提供了重要的实证支撑,对指导未来眼科乃至整个医学AI领域的大规模预训练数据科学采样与精细化筛选具有重要的学术意义。

研究运用英国生物样本库(UK Biobank)与中国上海百万人眼数据库(SHEEC)两大超大规模眼底影像队列,首次系统探讨了预训练数据的流行病学特征(如年龄、性别、种族分布)对视网膜基础模型(RFMs)泛化性能与算法公平性的因果影响。该研究核心论证了“数据规模并非决定模型效能的唯一因素”,揭示了预训练集中的年龄分布偏移是导致模型在不同年龄亚群中表现差异(公平性偏差)的主要原因