AI在基因调控领域的应用
引言
基因组曾被视为一本已经破译的“生命之书”,然而,当解码工作深入到占据基因组绝大部分的非编码区域时,我们才发现,那些曾被认为是“暗物质”的序列,实际上是控制基因表达的复杂控制面板。特别是顺式调控元件(cis-regulatory elements, CREs),尤其是增强子(enhancers),它们通过整合激活或抑制性转录因子结合位点(transcription factor binding sites, TFBSs)的特定组合,决定了细胞的身份与命运。
长期以来,通过高通量手段识别和表征顺式调控元件一直是一个巨大的挑战,高假阳性率如同迷雾一般阻碍着研究的深入。随着单细胞测序技术的爆发,特别是单细胞转录座酶可及性染色质测序(scATAC-seq)的应用,不同细胞类型间染色质可及性的差异成为了异质性细胞群体中增强子功能的最可靠指标。
然而,现有的序列建模工具往往缺乏针对大规模、复杂scATAC-seq图谱的优化,也缺乏全面的细胞类型特异性增强子代码分析能力。这正是CREsted诞生的契机。CREsted并非单一的算法,而是一个端到端的Python生态系统。它巧妙地整合了四个核心模块:数据预处理、模型训练、细胞类型特异性增强子代码解释,以及合成增强子的设计。
在预处理阶段,CREsted引入了一种创新的峰值高度归一化(Peak normalization)策略。常规的每百万计数(CPM)归一化会对具有较高峰值计数的细胞类型产生系统性偏差。为了纠正这一点,研究人员利用高绝对值且低变异性(基尼系数较小)的组成型峰值重新缩放了CPM归一化值。这种类似最小-最大归一化的处理,将所有细胞类型的基线可及性拉平,为后续深度学习模型的训练提供了极其纯净的靶标数据。
在模型训练层面,CREsted采用了多输出回归(Multi-output regression)或多标签分类(Multi-label classification)架构。特别是在回归模型中,研究人员采用了一种结合了余弦相似度(Cosine similarity)和对数均方误差(MSE)的动态损失函数。这种设计能够迫使模型不仅关注绝对的峰值高度,更关注预测向量与真实靶标向量在多维度空间中的方向一致性,从而极大地提升了模型对特定细胞类型的敏感度。
理解了CREsted的底层逻辑后,我们不禁要思考:一个基于海量数据训练出来的深度学习模型,真的能理解生命的语法吗?
为了验证CREsted的解析能力,研究人员首先将目光投向了极其复杂的小鼠运动皮层。他们基于该组织的scATAC-seq数据,训练了一个名为DeepBICCN2的峰值回归模型。该模型的训练过程分为两步:首先在440,993个共识峰(Consensus peaks)上进行基础训练,随后在73,326个细胞类型特异性区域进行微调。
在完全未见过的测试集染色体区域上,DeepBICCN2展现出了惊人的预测精度,其对数转换后的预测峰高与真实峰高之间的皮尔逊相关系数(Pearson correlation)达到了0.82,斯皮尔曼相关系数(Spearman correlation)达到了0.79。为了进一步验证其实战能力,研究人员利用该模型对171个已经在活体中验证过细胞类型特异性的增强子进行了评分。结果显示,在多标签分类设置下,模型的平均精确度达到了0.77,召回率达到了0.79。
最令人震惊的是模型展现出的跨物种泛化能力。已知小鼠和鸟类的中间神经元(Interneurons)增强子代码具有很强的保守性。研究人员利用基于小鼠Parvalbumin(Pvalb)细胞类型训练的模型,直接去评估鸡基因组中特异性表达于Pvalb细胞的UACA基因位点。在完全没有提供鸡的scATAC-seq数据的情况下,模型依然给出了高达0.62的预测与真实可及性相关性。这意味着,模型真正学到了序列背后的通用“语法”,而非仅仅记住了某个物种的特征。
在核苷酸分辨率的分析中,模型揭示了极为丰富的生物学细节。以生长抑素-软骨凝集素(SstChodl)细胞为例,模型识别出一个独特的E-box基序(motif),其共有序列为CAGGTG。在SstChodl特异性增强子AiE2428m中,如果将这个CAGGTG仅仅突变为更经典的CAGCTG形式,模型预测该增强子的活性将会在所有内侧神经节隆起(MGE)