50万人规模验证：医疗通识AI模型突破疾病预测与分型难题

发布时间：2026-05-25 07:41阅读：15

《npj Digital Medicine》期刊发表的《A foundational model encodes deep phenotyping data and enables diverse downstream applications》研究中，针对深度表型数据具有数据量大、维度高、类型混杂（含连续型生化指标、单项/多项分类变量及生活方式问卷调查）等特点，导致传统统计模型与常规机器学习难以捕获高阶非线性关联的瓶颈问题，提出核心观点：借鉴自然语言处理中的基础模型架构，可将个体的全景表型特征转换为类似语言的序列进行预训练，从而在无监督状态下编码出具有生物学意义的潜在表征，并直接支持疾病分型、共病网络挖掘及前瞻性风险预警。研究采用多层次论证支撑：在模型构建方面，设计了层级化分词策略（连续变量四分位离散化、多选项独立编码）与位置无关的Transformer架构（约2530万参数），基于502,118例UK Biobank参与者数据完成预训练；在验证层面，通过Leiden聚类算法在289种疾病中实现亚型划分（53种经FDR校正后显示显著生存差异，如COPD的嗜碱性粒细胞分布亚型），利用余弦相似度构建包含1,239个新颖关联的多发病网络，并以单纯生活方式数据在143种疾病预测中取得平均AUC 0.82，较基准模型提升0.03-0.16，最高风险组痛风发生OR达17.5。然而，论证中存在一定局限性：首先，训练数据源于UK Biobank，存在欧洲血统为主的志愿者偏倚，跨种族泛化性需独立队列验证；其次，模型本质为相关性学习，虽能识别高风险模式（如饮酒与痛风），但无法确立因果机制，且四分位离散化策略可能丢失连续变量的精细变异信息；此外，尽管引入了置换检验与Bootstrap验证，但在部分罕见病亚型分析中样本量仍显不足。尽管如此，该研究具有重要的学术价值：它不仅首次证明了通用基础模型架构在处理非序列、非成像的结构化医学表型数据上的可行性，突破了以往模型局限于单一任务或单一数据模态的限制，更为精准医疗提供了一种低成本、高可解释性的"表型指纹"计算框架，为从宏观流行病学向微观个体健康轨迹预测的转变提供了新的方法论范式。

研究提出的ukbFound是一个基于Transformer架构、专为超大规模结构化深度表型数据设计的基础模型。其整体设计思路旨在解决传统医学预测模型难以处理高维、异构且缺乏固定序列顺序的临床数据的问题，通过将个体的全景表型"翻译"为一种语言模型可以理解的标准化Token序列，利用自监督学习挖掘特征间的深层关联。整体工作流程遵循"分层标准化输入→位置无关嵌入→掩码语言模型预训练→下游任务微调/推理"的路径：首先，模型接收来自UK Biobank的2,781项异质性表型特征，将其转化为统一的Token序列；随后，通过独特的加法嵌入机制消除特征输入顺序的影响；接着，利用25.3M参数的Transformer编码器在大规模人群数据上进行预训练，学习通用的表型表征；最后，将学习到的嵌入向量直接应用于疾病分层、共病网络分析及疾病预测三类下游任务。

异质性数据标准化：针对连续型（如身高、生化指标）、单项选择型（如性别）及多项选择型（如既往病史）三种数据结构，设计了双词汇表策略。

连续变量离散化：为避免极端值干扰并适配Token化输入，连续特征采用等频分箱策略，将数值映射为Q1、Q2、Q3、Q4四个等级Token，保留了个体间的相对排序信息。

类别变量编码：

单项选择：将问题和选项分别映射为Trait Token和Value Token。

多项选择：将每个选项拆分为独立的二元特征，转化为单特征Token，解决了传统One-hot编码在高维稀疏数据上的局限性。

缺失值处理：引入专用的Token替代缺失值，确保序列长度的一致性。

笛卡尔积融合：这是ukbFound区别于传统NLP模型的关键创新。不同于BERT等模型依赖[CLS]位置或绝对位置编码，ukbFound将每个表型特征视为无序集合中的元素。

双路嵌入求和：模型维护两个独立的嵌入查找表：一个是Trait Embedding，用于编码特征含义；另一个是Value Embedding，用于编码特征值。最终的特征向量是两者的元素级相加。

置换不变性：由于采用加法融合且不包含位置索引，无论输入特征的排列顺序如何变化，模型输出的个体表征均保持不变。这一设计完美契合临床数据无固定顺序的特性，避免了模型学习到虚假的位置偏差。

模型规模与配置：采用标准Transformer编码器结构，包含8个堆叠层，每层配备8个自注意力头，隐藏层维度为256，前馈网络维度为1024。总参数量约为25.3M。

注意力机制：通过多头自注意力机制，模型能够计算任意两个表型特征之间的全局依赖关系，从而构建出反映个体整体健康状况的高维语义空间。

特殊Token：在序列起始处添加Token，取其最终隐层状态作为整个个体的聚合表征向量，用于所有下游任务。

掩码语言建模：参考BERT的训练范式，随机掩盖输入序列中15%的Token，要求模型根据未被掩盖的上下文预测被掩盖的Trait或Value。

分层掩码与平衡损失：为解决疾病标签稀疏的问题，训练时对Trait和Value的掩码比例进行分层控制，并在计算交叉熵损失时对Token类型进行平衡，防止模型偏向高频非疾病特征。

训练收敛：在4张NVIDIA A6000 GPU上训练50个Epoch（约72小时），学习率设为1e-4，损失函数在第40个Epoch左右趋于稳定。

疾病分层：直接提取特定疾病患者的嵌入，使用Leiden算法进行图聚类，无需重新训练编码器，仅通过聚类结果即可发现预后差异显著的亚组。

共病网络分析：通过计算不同疾病嵌入向量之间的余弦相似度，构建疾病-疾病关联矩阵，利用社区发现算法识别共享病理机制的疾病群。

疾病预测分类器：在预训练模型之后接驳一个轻量级分类头，包含并行卷积核、池化层和全连接层，仅使用生活方式和饮食特征作为输入，通过Sigmoid输出特定疾病的发病风险概率。

通过上述模块化设计，ukbFound成功将自然语言处理领域的强大表征学习能力迁移至复杂的生物医学表型数据中，实现了从"特征工程"到"特征学习"的范式转变。

研究结果

本研究提出了ukbFound，这是一个基于Transformer的基础模型，旨在对英国生物样本库中约50万人的深度表型数据进行编码。该模型通过分层标记化策略，将连续特征离散化为四分位数、多选项特征和多选特征转化为统一的标准化标记，并利用无位置嵌入技术处理特征顺序的不一致性。研究结果主要围绕模型在疾病分层、多病共存网络分析以及基于生活方式的疾病预测三个核心下游任务中的表现展开。

研究首先展示了ukbFound如何处理来自502,118名个体的2,781个特征，涵盖生活方式、生物标志物、疾病信息等18个类别。通过分层标记化策略，模型构建了包含2,781个特征标记和44,285个值标记的词库。模型在预训练过程中损失函数在第40个epoch趋于稳定，成功捕获了表型谱中的潜在关系。

← 上一篇：AI时代最该警惕的不是机器像人，而是人像机器下一篇：人工智能前沿快讯 →