标签

单细胞AI模型性能瓶颈与三阴性乳腺癌空间异质性研究进展

发布时间:2026-06-15 08:30阅读:2

单细胞基础模型近两年发展迅猛,业界普遍沿用大语言模型的思路:训练数据规模越大、模型参数量越高,性能就越出色。然而,Nature Methods发表的一项研究对此假设提出了质疑。

研究团队构建了包含2220万细胞的超大规模数据集,预训练了400个模型,并完成6400项系统性评估实验,深入分析了预训练数据规模、数据多样性、模型参数量和计算资源对单细胞基础模型性能的影响。

研究结果表明,“无脑堆数据”的策略并未得到验证。在许多任务中,单细胞基础模型会提前进入性能瓶颈期,继续增加预训练数据量并不能带来相应的性能提升。文章明确指出:单细胞AI模型的发展不能简单套用大语言模型的缩放法则,数据质量、任务设计、模型参数量和计算资源的协调匹配,可能比单纯追求“更多细胞”更为重要。

这一发现值得关注,因为单细胞基础模型正逐步应用于细胞注释、扰动预测、疾病分型、药物响应预测和虚拟细胞建模等领域。对从事单细胞分析的研究者而言,这篇文章相当于为当前的“基础模型热潮”降了温:模型可用,但不能迷信规模;在应用于临床和科研解释前,仍需关注任务适配性、外部验证和生物学可解释性。

三阴性乳腺癌具有高度异质性、转移风险高、治疗反应差异大等特点,一直是临床和转化研究的重点难点。Genome Medicine发表的一项研究采用病理引导的空间基因组和转录组测序技术,对三阴性乳腺癌原发灶及配对转移灶进行分析。研究团队通过激光显微切割获取不同空间区域的mRNA和gDNA,结合全外显子测序、全基因组测序和全转录组测序,系统追踪肿瘤内部不同区域的遗传演化和表型可塑性。

研究发现,三阴性乳腺癌在基因组和转录组层面均存在显著的空间异质性,不同区域可呈现“衰减型”或“均一型”等多种空间模式,表明肿瘤内部克隆扩增、驱动事件和分子亚型并非完全一致。更重要的是,研究人员识别出一个此前未被充分表征的氧化磷酸化相关转录状态,该状态与较差的预后和较弱的免疫治疗反应特征相关。原发灶和淋巴结转移灶中亲缘关系较近的克隆还共享部分生物学过程,说明肿瘤转移并非完全“重新洗牌”,某些表型特征可能在转移定植过程中被保留。

这项研究适合关注乳腺癌、肿瘤异质性、空间组学和转移机制的读者参考。其亮点在于将病理区域、基因组克隆结构、转录状态和免疫治疗相关特征纳入统一框架分析,为理解三阴性乳腺癌难治的原因及不同区域反应差异提供了更精细的证据。

公共数据库中存储着大量ChIP-seq数据,但实际复用面临诸多困难。GEO等数据库的样本信息通常以自由文本形式存储,靶蛋白、组蛋白修饰、细胞系、组织等关键信息的标准化提取和整合仍缺乏有效解决方案。