单细胞AI模型性能瓶颈与三阴性乳腺癌空间异质性研究进展
单细胞基础模型近两年发展迅猛,业界普遍沿用大语言模型的思路:训练数据规模越大、模型参数量越高,性能就越出色。然而,Nature Methods发表的一项研究对此假设提出了质疑。研究团队构建了包含2220万细胞的超大规模数据集,预训练了400个模型,并完成6400项系统性评估实验,深入分析了预训练数据规模、数据多样性、模型参数量和计算资源对单细胞基础模型性能的影响。研究结果表明,“无脑堆数据”的策略并未得到验证。在许多任务中,单细胞基础模型会提前进入性能瓶颈期,继续增加预训练数据量并不能带来相应的性能提升。