育种AI告别“黑箱”!中国农大打造可解释基因组预测新范式
人们日常食用的猪肉、鸡蛋和玉米,其背后究竟隐藏着何等繁复的遗传密码?
自AlphaGo到ChatGPT,人工智能正深刻变革各行各业。在农业育种领域,AI同样展现出巨大潜能——依托基因组信息预测动植物生产性能、遴选最佳繁育方案,已成为全球种业竞争的核心战场。然而,机器学习长期面临一个根本瓶颈:模型如同“不透明的黑匣子”。虽能输出预测结果,但在不同群体与性状间表现起伏不定,更难以阐明“究竟是哪些基因发挥作用”。对育种专家而言,仅知晓“结果”远不足够,唯有洞悉“机理”,方能指导实际的选育工作。
近期,中国农业大学胡晓湘、王宇哲课题组在国际权威期刊Genome Research发布突破性成果,其研发的AIGP(Artificial Intelligence Genomic Prediction)工具包,首次将可解释AI(Explainable AI)与自动化基因组预测全流程融为一体,使算法既能“精准计算”,又能“清晰阐释”。这一进展标志着AI在农业基因组学应用中的重大飞跃,华大智造T7平台为该研究提供了关键技术支持,为后续AI模型的精准构建奠定了坚实的数据基础。
图1 AIGP研究框架:覆盖猪、鸡、马、玉米四个物种的20个性状,通过GWAS和遗传力评估将性状分为三类遗传架构
该研究并非止步于理论推演,而是拿出了过硬的“实战”数据——涵盖猪、鸡、马、玉米四大农业物种、6个种群、涉及20个重要经济性状的真实育种材料,遗传力范围从0.19至0.87。同时设计了多组模拟实验,系统评估了不同遗传力、QTL数量、效应分布及上位效应对预测精度的影响。
在这场12种机器学习算法与传统统计学方法(GBLUP、BayesR)的同台对决中,Boosting类算法表现尤为突出:LightGBM与CatBoost几乎包揽了机器学习的最佳表现。在I/II类性状(QTL效应可解释大部分遗传力)中,机器学习在91%的情形下超越传统方法;其中LightGBM相较GBLUP的精度平均提升达83.15%。
这表明,针对由主效QTL主导的复杂性状,AI展现出传统手段难以比拟的优势。
图2:20个性状上14种预测方法的精度对比。I/II类性状中,LightGBM和CatBoost等Boosting算法全面领先传统方法
预测精准度仅是开端,育种专家更需洞悉究竟是哪些位点在驱动表型变异。
为此,课题组创新性引入SHAP(Shapley Additive Explanations)技术,对AI模型的预测结果进行逐层解析。通过SHAP值,不仅能识别关键QTL区域(与GWAS结果高度吻合,Top5/10/20位点重叠率分别达60%、50%、70%),还可绘制群体水平的效应分布图谱,直观展示每个SNP的加性效应、显性效应、超显性效应乃至上位效应。
更具突破性的是,SHAP可深入个体层面“讲述故事”:清晰呈现同一基因位点在不同个体中的基因型差异如何影响预测值的高低。这种从群体到个体的多维度可解释性,架起了算法优化与生物育种应用间的关键桥梁。
图3 SHAP Beeswarm图揭示群体水平关键SNP位点的效应分布——每个点代表一个个体,颜色区分基因型
无论模型多么先进,均离不开高质量数据支撑。研究团队在鸡28号染色体上发现了一个有趣的“多效QTL”:它同时影响公鸡睾丸重(TW)与母鸡开产日龄(AGG)两个重要繁殖性状,但TW位点附近的标记密度偏低,限制了AI模型性能的充分发挥。
为攻克这一瓶颈,课题组通过精准提升QTL区域标记密度,并结合SLDP全基因组特征选择策略,使LightGBM与CatBoost的预测精度实现显著跃升,甚至反超传统最优方法。这揭示了一个重要启示:AI的潜力并非源于盲目堆叠数据,而是通过生物学驱动的特征工程来释放,让AI在关键区域精准发力。
图4 Chr28多效QTL区域精细定位(上)及特征选择策略显著提升预测精度(下)
为使复杂的AI模型切实应用于育种实践,课题组集成了麻雀搜索算法(SSA)进行超参数自动优化。相较于单参数调优与网格搜索,SSA不仅在精度与稳定性上实现全面超越,更大幅提升了计算效率。
最终,全部模型、优化策略与解释框架集成为开源AIGP工具包,既支持在无遗传先验信息的数据上一键式全输出,也可有针对性地开展各类参数优化。即便缺乏深厚的AI背景,育种工作者也能轻松上手,迅速将AI技术应用于实际育种流程。
图5 AIGP软件架构图:从数据预处理、特征选择、模型训练到SHAP解释性分析,实现AI基因组预测的一站式解决方案
该研究的高品质基因组数据,离不开底层测序技术的支撑。研究中的鸡、猪群体样本,正是通过华大智造DNBSEQ旗舰机型T7测序平台完成低深度全基因组测序,结合基因型填充技术,为后续AI建模提供了高密度、高可靠性的SNP基础数据。
华大智造T7平台凭借其超高通量、稳定的数据产出能力,正成为全球农业基因组学研究的重要基础设施。从基因组数据生产,到AI模型构建,再到育种决策落地——高品质的数据起点,是一切智能分析的根基。
从“黑箱预判”到“透明解析”,AIGP的诞生标志着AI在育种领域的应用迈入全新阶段。它不仅是算法工具,更代表着研究范式的转变:以可解释的智能,搭建数字模型与生物现实间的桥梁。
在生物育种国家战略的引领下,从自主可靠的测序平台到开源共享的AI工具,中国科研力量正携手构建完整的“数据-算法-应用”创新链条。当人工智能真正读懂生命语言,农业的未来必将更加智慧、高效、可持续。
Wei L, Jiang Z, Fan B, et al. Automated interpretable artificial intelligence genomic prediction with AIGP.Genome Research. 2026. doi: 10.1101/gr.281006.125.
https://github.com/CAU-LEI/AIGP_soft.git
注:本文依据已公开发表的学术成果进行科学普及,相关实验数据与分析方法详见原文。