标签

人工智能在免疫学中的应用与未来展望

发布时间:2026-04-03 09:44来源:微信阅读:5

Chestnut Studying

摘要

意义:人工智能(AI)在推动免疫学发展方面具有巨大潜力,但要兑现这一承诺,需要高质量的免疫数据和广泛的实验验证。本综述重点阐述了实验免疫学家如何推动人工智能的发展,特别是针对B细胞受体和T细胞受体的应用,并解释了为何将人工智能与创新的高通量方法相结合,对于理解适应性免疫以及加速疫苗和治疗方法的开发至关重要。

亮点:新兴的人工智能(AI)架构,包括大型语言模型和生成式模型,正在改变B细胞受体、T细胞受体、表位和抗原的分析与设计方式。受体库测序、展示技术及功能图谱分析领域的进展,对于充分发挥AI的潜力至关重要。一个动态的AI-实验反馈循环正在形成,其中计算预测指导实验室设计,而高通量检测则用于优化和验证模型。

摘要:尽管人工智能(AI)正在重塑生物科学,但由于数据有限且需要大量实验验证,其在免疫学领域的全部潜力尚未得到充分发挥。本综述为实验免疫学家提供了积极参与AI发展的实用指南,重点关注B细胞和T细胞受体的应用。它不仅概述了免疫学中常见的AI技术,还突出了高通量实验方法的重要作用。总体而言,我们相信人工智能与实验创新之间的协同作用将成为推动免疫学领域发展的关键催化剂。

迈入免疫学的人工智能时代

人工智能(AI)正在迅速重塑生物研究领域,并在多个学科中开辟新的可能性。在结构生物学领域,AlphaFold 通过以前所未有的精度预测蛋白质的三维(3D)结构,处理了困扰业界数十年的难题。在基因组学领域,诸如Evo2等基础模型正通过预测功能影响并勾勒生物特征的广度,彻底改变我们对遗传变异的理解。这些突破性进展彰显了AI从海量且复杂的生物数据集中提取有意义见解的能力。AI的影响力也已延伸至免疫学领域。例如,基于抗体和T细胞受体(TCR)序列大规模数据集训练的语言模型,正在推动免疫受体库分析、诊断、新型治疗药物设计以及免疫逃逸预测的发展。这些进展凸显了AI重新定义实验人员研究免疫识别及宿主-病原体相互作用方式的潜力。与此同时,高效的人工智能模型需要高质量且多样化的实验数据进行有效训练和微调。这种共生关系意味着人工智能的快速演进为实验研究者提供了前所未有的机遇。然而,该领域中实验研究人员与人工智能研究之间的联系在实践中往往较为有限,我们推测这主要归因于:(i) 免疫学领域缺乏大规模、标注完善的数据,以及 (ii) 实验研究人员难以获取人工智能工具和计算专业知识。

本综述旨在为免疫学实验人员提供实用指南,弥合人工智能驱动的计算进步与实验室创新之间的鸿沟。我们探讨了与实验工作相关的关键人工智能技术,并重点介绍了易于获取的人工智能工具,以赋能实验研究。我们同时强调实验研究在人工智能时代的关键作用。为帮助实验人员有效利用人工智能,我们整理了一套全面的资源集合,包括计算工具、高通量方法及实用指南,这些资源可在我们的网页i和 GitHub 仓库ii上获取。我们希望本综述能促进实验研究与人工智能开发之间的协同作用,从而加速免疫学领域的突破。

免疫学中人工智能技术的概述

对于实验人员而言,理解人工智能技术的理论基础对于将其有效应用于假设检验、数据解读和实验设计至关重要。本节概述了人工智能的关键概念和方法论,重点探讨其在免疫学和病毒学实验中的实际应用、优势及局限性。

传统机器学习与深度学习

人工智能涵盖了多种方法,其中传统机器学习和深度学习是两大主要范式。传统机器学习方法,如决策树、随机森林和支持向量机,依赖于预定义特征,因此在处理结构化数据集时具有可解释性和计算效率。这些方法已被用于推断疫苗效力、根据受体库谱分类血清学状态,以及识别与疾病严重程度相关的受体库特征。深度学习通过采用深层多层架构——即深度神经网络——与传统机器学习区分开来,这些架构在处理非结构化、高维数据方面表现卓越,例如显微镜图像、核苷酸和氨基酸序列以及三维蛋白质结构。这些模型直接从原始数据中学习特征,从而无需人工特征工程。例如,卷积神经网络已被应用于电子显微镜图像中的病毒检测、分割和分类。深度神经网络还被用于学习 BCR 和 TCR 序列的连续且语义丰富的嵌入,从而促进聚类、分类或受体库比较等下游分析。

不同数据类型的模型架构

为了从各类实验数据中提取生物学见解,通常需要定制化的神经网络架构。对于核苷酸或蛋白质序列数据,循环神经网络(RNNs)以及近年兴起的基于Transformer的架构已被证明在学习其底层的生物学“语法”方面非常有效。Transformer语言建模中两种广泛使用的策略是自回归和掩码语言建模。自回归模型按从左到右的顺序预测下一个令牌,而掩码语言模型则通过遮蔽令牌并利用双向上下文进行重建,从而捕捉更宏观的关联。这些模型特别适用于分析病毒序列和适应性免疫受体库。对于蛋白质结构数据,图神经网络特别有效,因为分子结构可以自然地表示为图,其中原子或残基作为节点,它们的相互作用作为边。一个显著的例子是AlphaFold 架构,它将成对距离预测与残基级特征相结合,以实现接近实验水平的准确度。最近的研究进一步优化了图表示,以提高抗体特异性推断的速度和准确度。对于荧光或组织病理学图像等成像数据,卷积神经网络因其能够检测空间模式和形态特征而被广泛应用。基于卷积神经网络的框架已被用于多种任务,包括免疫细胞表型分析、传染病的快速放射学诊断,以及预测T细胞受体与其表位之间的相互作用。选择与数据类型相匹配的合适AI模型,是应用AI解决相关生物学问题的重要第一步。

训练方案的概念

根据数据类型选择好 AI 模型后,下一步就是对其进行训练。AI 模型的训练过程决定了这些模型如何从实验数据中学习。

监督学习与无监督学习

有监督学习利用标注数据训练模型,以预测预定义的结果。在免疫学应用中,有监督方法已被用于根据抗体库特征对免疫状态进行分类,以及预测抗体的结合特性以指导治疗方案的设计。相反,无监督学习无需标签即可揭示隐藏的模式。此类方法已被应用于聚类单细胞免疫谱以揭示不同的免疫细胞亚群,并利用基于结构信息的生成模型演化抗体-抗原复合物。监督学习适用于拥有大量经过整理的数据集的假设驱动型研究,而无监督模型则有助于处理实验输出有限或存在噪声的情况。

预训练与微调

预训练是指让模型接触大规模的通用数据集以学习广泛的模式,随后在规模较小且针对特定实验的数据集上进行微调,从而优化其在专项任务中的表现。这种基于迁移学习的方法在标注数据稀缺时尤为有用。典型的应用案例包括抗体特异性建模以及TCR-肽-MHC相互作用建模,在这些研究中,基于大型免疫受体数据集的预训练能够提升模型在资源匮乏的免疫学任务中的泛化能力和预测性能。

AI建模工作流

将人工智能建模应用于生物学的第一步是明确科学问题,例如“能否预测T细胞表位的特异性?”或“病毒突变如何影响抗体结合?”(图2D)。下一步是收集并预处理高质量数据,例如单细胞 TCR 测序数据,或来自“全球流感数据共享倡议”(GISAID)的病毒基因组序列,并通过严格的整理确保数据的相关性和一致性。第三步是选择和训练人工智能模型。这包括根据研究问题和数据集,选择合适的架构(例如 mBLM 中用于序列数据的 Transformer 模型)以及合适的学习方法(例如监督学习)。在训练过程中,实验人员会通过准确率或F1分数等指标监控性能,以优化模型参数。第四步是在独立的测试集上评估模型性能,例如针对病毒进化预测使用未见过的SARS-CoV-2变异株,以评估其泛化能力。最后一步是将预测结果与实验基准进行验证。

人工智能在免疫学中的应用

本节综述了人工智能在免疫学领域的最新应用进展,以及此前关于免疫系统建模的见解。我们将重点探讨适应性免疫受体库分析,以及B细胞受体(BCR)和T细胞受体(TCR)的建模(图3A)。此外,我们还将讨论人工智能在免疫学领域的更广泛应用,例如疫苗设计、药物研发和诊断,并探讨当前存在的局限性,以及实验人员如何协助处理这些挑战。

免疫谱分析

适应性免疫系统通过其受体库与多种抗原结合,从而协调针对病原体和恶性肿瘤的防御反应。破译这些适应性免疫受体库的序列信息是免疫学领域的一项经典处理任务,目前正通过机器学习方法积极加以解决。值得注意的是,分类模型在多种疾病状态下均能有效区分健康与病变状态,包括巨细胞病毒、SARS-CoV-2和登革热病毒感染。这些模型利用VDJ基因使用模式、序列模式以及克隆分布等特征,来预测疾病严重程度和感染状态等具有临床意义的结果。

近年来,生成式模型(如基于语言的 TCRpeg 模型和变分自编码器 AIRIVA 模型)已成为破译适应性免疫受体库中复杂序列模式的强有力方法。AIRIVA通过学习TCR序列的底层分布,能够生成具有可控多样性的新型、逼真的受体变体。这些模型不仅能够理解现有的受体库数据,还能模拟受体生成过程,并识别与功能性淋巴细胞亚群相关的关键序列特征,从而为TCR功能研究提供新见解。另一种强有力的方法是将受体库序列作为向量空间中的嵌入向量进行表示,这是降维和捕捉序列相似性的关键步骤,从而为下游机器学习分析奠定基础。诸如 TouCAN 和 SC-AIR-BERT 等工具,利用对比学习或 Transformer 架构有效地将 BCR 和 TCR 序列进行嵌入,从而预测抗原结合特异性。为确保这些针对适应性免疫受体谱系的机器学习模型具有可重复性,目前正在开发免疫ML等开源平台以支持端到端分析。然而,该领域仍面临诸多处理事项,包括对标准化实验数据集的需求、多模态数据的整合,以及在不同个体和疾病间的泛化能力。

人工智能在BCR建模中的应用

B细胞受体(BCR)通过识别特定抗原来触发B细胞活化和抗体产生,在适应性免疫中发挥着至关重要的作用。抗体建模中的AI主要依赖两种策略,即基于序列的方法和基于结构的方法。抗体的庞大序列空间及其多样性,使得BCR建模变得极为复杂。基于序列的模型(如AbLang)利用自监督学习在大型抗体数据集上进行预训练,从而能够针对特定任务进行后续微调。这些工具能够捕捉天然抗体序列中的模式,从而促进抗原特异性抗体的快速生成以及结构预测。相比之下,基于结构的模型则基于三维结构数据来分析和预测抗体的性质。诸如 AntiFold、Ig-VAE 和 dyMEAN 等工具利用深度神经网络,在定义区域内预测抗体的结构和序列。近期,基于扩散的模型通过随机噪声的迭代优化生成分子结构,已成为抗体设计领域的有力工具。其他生成式模型,如Chai-2、BoltzGen和Germinal,进一步释放了零样本抗体设计的潜力,可实现低纳摩尔级别的结合亲和力。然而,由于互补决定区(CDRs)具有较高的构象灵活性,其精确设计仍具挑战性。当前大多数基于结构的模型并未考虑这种动态特性,这可能限制其对免疫受体结构的预测精度。

预测抗体的特异性也变得日益重要。一种常见的策略是训练机器学习模型,以区分针对目标抗原结合亲和力高与低的抗体序列,从而能够对治疗性抗体库(如曲妥珠单抗和艾米贝珠单抗)进行in silico优化。与此同时,人工智能正通过优化策略显著影响抗体开发,这些策略已证实能有效提升抗体的效力、广谱性及可开发性。值得注意的是,语言模型已展现出通过序列嵌入编码受体特异性和亲和力的强大能力。这些进展促进了广谱反应性抗体的发现,例如可解释语言模型 mBLM,它成功识别了针对流感血凝素茎部的抗体。然而,受限于抗原多样性及变异体覆盖范围的局限,这些模型的准确性和泛化能力受到制约。推进 BCR 建模需要更广泛的抗原数据集,且其中重链与轻链需以准确的天然配对形式存在。

人工智能在TCR建模中的应用

T细胞受体(TCR)通过识别与肽结合的主要组织相容性复合体(pMHC)复合物来调控细胞免疫,而人工智能在解码这一过程中正变得越来越娴熟。对这一过程的计算重建仍是系统免疫学的一个核心目标。与B细胞受体(BCR)特异性预测类似,在建模TCR-pMHC相互作用方面也已付出了巨大努力。诸如DeepTCR等框架利用无监督和有监督的微调,通过学习TCR序列与pMHC特征的联合表示来预测TCR–pMHC结合特异性。包括TCRconv在内的混合架构,将Transformer与卷积神经网络相结合,以增强对TCR–pMHC相互作用的建模能力,并提供更好的模型解释。为克服仅基于序列模型的局限性,基于结构的方法已明确纳入 TCR–pMHC 界面三维特征,从而提高了模型的泛化能力并提供了机制层面的见解。人工智能还被应用于抗原呈递领域,诸如 BigMHC等工具显著提升了对 HLA-I 配体和新表位的预测能力。尽管取得了这些进展,深度学习模型在准确预测新型肽的结合方面仍常面临困难。一个关键局限在于当前TCR–pMHC数据集固有的数据不平衡问题——大量TCR仅与少数肽相关联。未来的研究应优先构建多样化的肽-pMHC交叉反应性数据集,从而实现对TCR特异性和识别模式的更精确建模。

人工智能在更广泛的免疫学应用中

人工智能正越来越多地应用于更广泛的免疫学处理,包括疫苗设计和诊断。在理性疫苗设计中,表位鉴定是一个关键步骤,为此已开发出众多基于序列的和基于结构的方法。例如,作为开创性方法的ScanNet利用三维蛋白质结构预测结合位点,已成功识别出SARS-CoV-2刺突蛋白的已知抗原区域以及新型表位。然而,当前模型往往需要大量微调,且泛化能力有限,因此仍需通过实验进行表位鉴定。这些经实验验证的表位可为新型免疫原的设计提供依据,通常通过将其展示在非抗原性支架上或整合到嵌合抗原中来实现。例如,研究人员开发了一个基于表位支架的通用结构框架,并据此设计出一种免疫原,该免疫原能诱导针对流感血凝素保守茎区的强抗体应答。与此相关,免疫原性预测一直是疫苗和生物制剂研发面临的主要处理挑战。尽管在人工智能时代之前就已经存在用于免疫原性预测的计算方法,但人工智能模型的进步有望提高预测准确性。在诊断领域,人工智能也取得了一些进展。例如,Mal-ID(免疫学诊断机器学习)作为一种精准诊断平台,通过分析人类血液样本中的B细胞受体(BCR)和T细胞受体(TCR)序列,来区分自身免疫性疾病、病毒感染和疫苗应答。这些研究凸显了人工智能在揭示免疫谱系中的疾病特异性标志物以及改善疾病分层方面的潜力。然而,实际应用仍面临潜在误诊的处理挑战。解决这些问题需要建立涵盖多样化人群、公开且可供公众访问的、基于患者知情同意的免疫受体库数据库,以及健全的实验验证方案。

没有数据,就没有人工智能

如前所述,实验数据不仅对模型训练至关重要,对模型验证同样不可或缺。生物学领域中一些最成功的AI模型,例如AlphaFold、ESM 和Evo,之所以能够问世,正是得益于实验科学家数十年来在整理标准化数据集方面的不懈努力,例如蛋白质数据银行(PDB)、UniProt 和GenBank。同样,实验人员也为人工智能在免疫学领域的当前成功做出了关键贡献。特别是,高通量筛选(HTS)方法极大地拓展了对免疫受体多样性和病毒抗原进化的研究。虽然这些实验最初大多并非为人工智能而设计和进行的,但其中许多实验生成的数据集使得人工智能得以应用于免疫学和病毒学。如今,许多现有及新兴的HTS方法在应用时,已将下游AI集成作为直接目标。

在本节中,我们将重点介绍免疫受体与抗原相互作用界面上的主要HTS突破,总结其当前与AI模型训练及开发的整合情况,并探讨未来实验策略如何更有针对性地与AI目标保持一致。我们认为,实验方法与问题驱动型AI之间的深度融合,对于推动免疫学实现下一轮变革性进展至关重要。

显示技术:从筛选最佳结合物到描绘进化景观

显示技术的进步彻底改变了免疫受体的筛选和鉴定方式。噬菌体展示技术于20世纪80年代中期发明,并于90年代首次应用于抗体筛选,它使得针对目标抗原的免疫受体文库(包含多达109–1011个变体)得以进行筛选,极大地提高了发现高亲和力结合物的可能性。然而,尽管输入文库规模庞大,早期的噬菌体展示筛选在最终筛选轮次中通常仅能获得少数几个结合物。尽管这些结合物在功能上更优越,但它们几乎无法提供关于整个文库组成的信息。这一瓶颈主要归因于在解析复杂、异质性输出结果方面的技术限制。尽管酵母、mRNA和哺乳动物展示等新平台相继出现,但这些平台同样面临类似的制约:虽然在筛选方面功能强大,但在数据提取量上却十分有限。

新一代测序(NGS)技术的进步使得能够对筛选产出的多样化序列进行分析。因此,展示技术已演变为能够生成更深入信息的强大工具。在过去十年中,基于展示技术的HTS方法(如深度突变扫描(DMS)和Tite-Seq)相继开发,能够并行生成并定量分析多达数十万种免疫受体或病毒抗原变体的表型。例如,DMS和Tite-Seq已被应用于研究SARS-CoV-2刺突蛋白的表达、ACE2结合及融合效率,为新冠疫情期间关注变异株的病毒进化与抗原逃逸提供了及时且关键的信息。Tite-Seq还被用于绘制广谱中和抗体的亲和力成熟途径及其序列-功能关系。此外,一种新近开发的方法将核糖体展示技术与Illumina HiSeq平台直接整合,先对VHH/scFv文库进行测序,随后原位进行功能筛选,从而能够推断约108次抗体-抗原相互作用的结合情况。

因此,这种在实验数据展示方面从“少到多”的范式转变,极大促进了人工智能模型的训练。事实上,近期已开展多项工作,旨在利用现有展示技术生成的数据来实现人工智能引导的研究。例如,通过整理现有文献中的DMS数据集,成功训练出一个具有普适性的蛋白质适应度景观模型。基于酵母展示技术的SARS-CoV-2刺突受体结合域DMS使人工智能能够指导未来突变的预测,而重新利用的核糖体展示和噬菌体展示技术则产生了用于人工智能训练的数据集,有助于发现高度特异性的抗体和T细胞受体。MaveDB和ProteinGym等标准化DMS数据库也为未来的人工智能开发提供了有用的训练和基准资源。

免疫受体测序:将序列与更高阶信息相联系

自首例抗体和TCR被分离以来,免疫受体序列的发现一直是免疫学领域的主要研究焦点。20世纪70年代的早期突破,如杂交瘤技术的开发和桑格测序法的问世,首次使免疫受体测序成为可能。随后,新一代测序(NGS)技术显著提升了免疫受体测序的通量和深度,为现代免疫受体测序方法——即Ig-seq和TCR-seq——奠定了基础。尽管方法简单,Ig-seq和TCR-seq却能实现大规模免疫受体库的探索,因为它们能够一次性发现数十亿条序列。通过整理已发表的测序数据,建立了大规模免疫受体数据库,例如“已观测抗体空间”(OAS)、“已观测TCR空间”(OTS)、VDJdb以及“免疫表位数据库”(IEDB)。

在过去十年中,随着单细胞mRNA测序(scRNA-seq)的突破,免疫受体测序技术又迈出了重要一步。与通常只能获得非配对免疫受体序列的Ig-seq和TCR-seq不同,scRNA-seq提供的免疫受体序列保持着其天然的重链/轻链或α/β链配对状态。这项被称为“VDJ-seq”的技术,为重构B细胞和T细胞受体库的天然状态提供了强有力的方法,并极大地增加了可用于下游研究的免疫受体数量,因为单次研究中即可发现数百至数百万条配对链序列。当与集成微流体或光流体技术相结合时,还可以获得更多的序列-功能信息,这些技术允许对每个细胞及其表面受体进行分离和表征。例如,LIBRA-seq 绘制了来自 HIV 感染者的数千种 B 细胞特异性,鉴定出针对 HIV 和流感的新型广谱中和抗体(bNAbs),而 CelliGO 则能够对缺乏 BCR 表面表达的浆细胞进行抗体特异性表征。

单细胞RNA测序(scRNA-seq)还提供了单细胞水平的全面转录组谱。这使得对克隆扩增、细胞状态和谱系关系进行更综合的分析成为可能。当与抗原特异性信息结合时,scRNA-seq能够直接关联免疫受体序列与其功能表型。此外,还可纳入时空信息,从而促进对免疫受体库动态的高阶洞察。然而,由于不同实验数据集在可用性和标准方面存在差异,这些信息尚未被广泛采用。尽管如此,得益于语言模型领域的近期突破,免疫受体序列已成为人工智能引导的特异性预测中最常用的生物数据类型之一。

高通量表位发现:一项正在进行中的研究

免疫受体的序列-功能表征对于理解和利用人类适应性免疫应答至关重要。在发现免疫受体序列之后,鉴定其表位自然成为下一步关键工作。由于抗体和T细胞受体(TCR)的作用机制各不相同,在两者的表位发现过程中都存在处理挑战。

T细胞受体表位的识别涉及主要组织相容性复合体(MHC)对碎片化线性抗原的加工和呈递,这给采用基因组学方法进行表位分析带来了挑战。因此,质谱(MS)技术应运而生,成为解决这一问题的有效替代方案。这种被称为“免疫肽组学”的方法能够生成代表HLA呈递肽的大规模数据集,单项研究中最多可对105个肽进行分析。另一方面,研究人员利用工程化细胞系或诱饵开发了高通量报告子检测法,以捕捉 TCR–肽–MHC 相互作用。一些典型的例子,如 T-Scan 和 Tet-TCR-seq,利用流式细胞术 (FACS) 和 NGS 来识别 TCR 所识别的肽信息。与主要识别MHC呈递肽段的质谱法相比,这些方法可在受控实验环境中实现靶向TCR表位发现,其设计和应用更为灵活,能够与人工智能紧密结合。

尽管近期涌现了大量表征 TCR 表位的方法,但高通量捕获抗体表位仍是一大处理挑战,因为许多抗体识别的表位超出了线性肽构象的范围。目前,最有效的方法仍是通过 X 射线晶体学或低温电子显微镜(cryo-EM)进行结构表征。尽管 cryo-EM 技术的进步极大地提高了结构表征的周转率,但工作流程仍主要局限于单一构建体。近期研究通过异质性冷冻电镜数据采集与处理,致力于解析多个抗体表位。然而,在表位-抗原结合位点界面解析原子级细节仍具挑战性。除结构表征外,基于酵母展示的DMS实验已被用作抗体表位发现的高通量替代方案;但该方法存在显著局限性,因其提供的抗体与抗原间分子相互作用信息极为有限。此外,DMS实验还受目标抗原的生物物理限制制约,因为引入突变可能会影响抗原的适应性,例如表达和稳定性。噬菌体展示技术通过呈现短肽片段,为多克隆抗体的特异性分析提供了另一种选择。例如,VirScan方法的开发旨在对整个人类病毒组中的线性表位进行分析,从而能够发现公共抗体应答中的共同序列特征。然而,识别非线性表位仍然是一项重大处理任务。因此,未来在开发高通量结构表征方法方面的努力将极大促进抗体表位的探索。

结语

尽管人工智能在利用现有高通量筛选(HTS)方法生成的数据方面展现出越来越大的潜力,但仍存在一些可能阻碍进一步发展的挑战需要处理。首先,并非所有数据都具有同等价值,因为在数据质量、实验设计和背景等多个方面都存在差异。其次,大多数现有的高通筛选(HTS)方法遵循“单库筛选”或“少数库筛选”模式,即仅使用一个或少数几个免疫受体/抗原来筛选所构建的化合物库。这两大挑战都可能限制训练模型在实际应用中的表现,并阻碍其泛化能力。此外,由于缺乏能匹配AI预测吞吐量的实验验证流程,许多模型仅在内部测试集上进行过评估,其实际应用表现及后续改进的实验验证极为有限甚至完全缺失。

合成生物学为处理这些挑战提供了极具前景的解决方案,有助于构建新一代、兼顾人工智能的高通量方法。与依赖自然库中随机多样性的传统方法不同,DNA寡核苷酸合成等高通量合成生物学技术使研究人员能够设计并构建具有预期组成的文库。这种可定制性使研究人员能够更好地控制输入多样性、序列特征和表型标签,从而使实验平台既能作为标准化数据源,又能作为AI的验证工具。事实上,在近期针对免疫肽组学开发的高通量筛选(HTS)实验中,已采用合成DNA寡核苷酸池来构建大规模文库,其中部分研究已展示了其在验证和优化AI模型方面的潜力。尽管当前最先进的寡核苷酸合成技术在构建全长免疫受体文库方面仍存在局限,但可通过乳液PCR、Golden Gate组装及寡核苷酸杂交等不同策略来处理这一问题。鉴于当前的de novo免疫受体设计模型仍存在较高的假阳性率,采用“实验室闭环”工作流程将极大加速未来的研究进展。

在筛选方案方面,“库对库”平台能为AI模型的泛化提供巨大助力,因为与传统高通筛查方法相比,该平台可提供信息广度更宽的数据集。鉴于交叉反应性是抗体和 TCR 的共同特征,涵盖复杂免疫受体结合图谱的数据至关重要。尽管许多方法都有潜力应用于“库对库”筛选,但每种方法都面临不同程度的处理挑战,从提高通量到构建限制。未来有必要在免疫受体-抗原相互作用的背景下,建立广泛适用的“库对库”筛选平台。虽然前文讨论的大多数高通量筛选方法侧重于序列和表位发现,但目前高通量功能检测(如抗体中和试验和蛋白质稳定性测定)也正在开发中。随着这些方法在该领域得到更广泛的应用,它们有望使实验人员生成多模态数据集,从而提升免疫学人工智能模型的开发水平。

最后,随着人工智能在免疫学中的应用持续扩展,现有数据的局限性需要处理。扩充可用实验数据变得日益关键。开发新高通量筛选方法的实验人员如今正面临一个十字路口:方法应优先考虑数据质量还是数据数量?(参见未解之题)。若过度侧重其中某一方面,往往需以牺牲另一方面为代价。因此,在新高通量筛选方法中找到质量与数量的微妙平衡,将对未来进展产生重要影响。我们设想,未来的AI工具还能促进高通量筛选的实验设计与数据分析,从而同时实现质量与规模的双重提升。对于免疫学领域的AI而言,AlphaFold式的突破性时刻尚未到来。