Engineering | 基于机器学习(GS)的作物抗病表型预测

news/2024/10/4 11:22:23

近日,中国农科院植保所联合扬州大学、湖南农大等在中国工程院主刊 Engineering (一区top, IF=12.8)上发表了题为《Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance》的研究成果。该研究通过优化多种机器学习流程,开发了基于高通量基因型数据的作物抗病表型精准预测方法,实现了对水稻稻瘟病、纹枯病、黑条矮缩病,以及小麦麦瘟病、条绣病抗性的精准预测。

研究背景

传统抗病育种往往通过筛选已知抗病(R)基因、依据病圃抗性鉴定来选择抗病新品种。在作物对不同病害抗性研究中,已知的抗病基因数量还十分有限,加上近年研究发现,不少感病(S)基因突变、能塑造植物健康微生物组的M基因等对作物的最终抗性表型均起到了重要贡献。因此,高效选育抗病品种需要充分考虑和利用全基因组信息,但目前基于作物高通量基因型数据筛选作物抗病表型的高效精准方法报道较少。

前人有使用全基因组标记数据开发了基于GWAS的GS工具。例如,GMStool使用适当的基于统计和机器学习的模型来搜索最佳标记数量并选择最佳预测模型。以水稻和玉米为例,育种家成功地将GWAS结果的相关位点整合到GS模型中,大大提高了其重要农艺性状的预测精度。

本研究以水稻主要病害稻瘟病、纹枯病和黑条矮缩病,以及小麦麦瘟病(CIMMYT已发表数据)和条锈病为研究对象,利用水稻、小麦自然品种资源的高通量基因型数据、表型数据、通过全基因组关联分析挖掘抗病关联位点信息,通过多种机器学习方法对抗病关联位点基因型和表型进行训练以构建预测模型,基于该模型实现了基于个体基因型精准预测其抗病性水平,解决了传统抗病育种中通常仅依赖少数抗病基因而不能精准选择抗病新材料的问题。

技术路线

研究者首先收集了水稻和小麦的遗传和表型数据。然后,他们采用全基因组关联研究(Genome-wide association study, GWAS)来识别与病害抗性相关的标记性状关联(Marker trait associations, MTAs)。接着,研究者整合了GWAS结果、病害抗性表型和群体亲缘关系(kinship)信息,开发了三种新型机器学习(Machine learning, ML)模型,分别是随机森林分类加亲缘关系(RFC_K)、支持向量分类加亲缘关系(SVC_K)和轻量梯度提升机加亲缘关系(lightGBM_K)。

研究方法

数据收集与预处理: 研究涉及水稻多样性面板I(RDPI)和II(RDPII)以及CIMMYT的小麦种群,小麦和水稻核心群体(各包含超过300个代表性品种)进行多种病害抗性鉴定,对不同病害的抗性分为R(抗病)和S(感病)两种类型(去除部分抗感不确定品种),将复杂的群体数量抗性问题简化为二分类问题。

GWAS分析: 利用Tassel 5.0软件和混合线性模型( MLM)进行GWAS,筛选与病害抗性相关的SNPs。

ML模型开发: 开发了五种ML方法,包括RFC、SVC、lightGBM、DNNGP和DenseNet,并结合亲缘关系信息对模型进行改进。在机器学习训练过程中,对取样过程进行干预,将亲缘关系(K)加入到取样过程,使其每次取样在群体中的分布由随机改为均匀,避免训练过程中的取样不均。

模型训练与验证: 使用10折交叉验证评估模型性能,并在独立的人群上测试模型的泛化能力。

用于构建加kinship机器学习模型以预测抗病性的工作流程图

研究结果

模型性能:在适当P阈值范围内(P值代表全基因组关联分析获得的抗病关联SNP标记的关联值),随机森林分类(RFC)、支持向量机分类(SVC)、以及轻量级梯度提升机器学习(lightGBM)、深度神经网络(DNNGP)、稠密连接卷积网络(DenseNet)等机器学习算法均能实现较高准确性预测。其中,当RFC、SVC、以及lightGBM结合亲缘关系均匀取样训练情况下,即RFC_K、SVC_K、以及lightGBM_K方法(与未结合K取样方法相比较)均能显著提高预测准确性,本研究对水稻稻瘟病抗性的预测准确性最高达95%,跨群体预测结合人工接种鉴定确定的准确性也高达91%。另外,对小麦麦瘟病和条锈病的预测准确性分别达到90%和94%。对水稻纹枯病和水稻黑条矮缩病两种公认难以准确鉴定抗病性的病害,其预测准确性都达到85%。

泛化能力: 将训练好的加亲缘关系模型应用于独立的水稻群体(RDPII),与实际喷灌接种结果相比,预测准确度达到了91%。

模型解释性: 特别是RFC_K模型,在预测稻瘟病抗性方面不仅表现出高预测准确度,而且具有很高的可靠性,其平均AUC值达到了0.9975和0.9966。

RFC、RFC_K、SVC、SVC_K、lightGBM、lightGBM_K、DNNGP和DenseNet模型在p 1.0×10 −3 下抗病性预测准确性≤比较分析。

RFC、RFC_K、SVC、SVC_K、lightGBM、lightGBM_K、DNNGP和DenseNet模型在p 1.0×10 −2 下抗病性预测准确性≤比较分析。

 RFC_K 模型的稻瘟病预测性能和可解释性。

应用经过训练的 RFC_K、SVC_K 和 lightGBM_K 模型预测 RDPII 中的抗稻瘟病。

上述结果说明本研究开发的基于基因型精准筛选表型的机器学习方法对于作物多种病害抗性表型预测具有广适性,未来合理利用可显著提高作物抗病育种效率。

结论与展望

这项研究开发的ML方法不仅为预测植物病害抗性提供了有价值的策略,而且为使用机器学习简化基于基因组的作物育种铺平了道路。研究结果强调了将亲缘关系信息纳入分类器可以显著提高预测准确性,并展示了ML在GS中的潜力,有助于加速识别新的抗性资源或品种,降低表型鉴定的时间和成本。

中国农业科学院植物保护研究所研究生刘琪、扬州大学/生物育种钟山实验室左示敏教授为共同第一作者,中国农业科学院植物保护研究所康厚祥副研究员为通讯作者。湖南农业大学李魏教授、中国农业科学院作物科学研究所李慧慧研究员和熊叶辉研究员、中国农业大学杨俊教授、海南大学林润茂副教授、扬州大学冯志明副教授等也参与了数据分析、论文修改等工作。植保所彭莎莎、彭烨博士,作物所张昊博士也为该研究做出了重要贡献。该研究受到国家自然科学基金国际合作项目(32261143468)、国家重点研发计划(2021YFC2600400)、江苏省种业振兴计划(JBGS(2021)001)等项目的联合资助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/44273.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

ANSYS 导出节点的位移数据

以位移作为数据输出演示,同理应力,应变等也可采用此流程导出1. 数据保存确定待提取的节点编号; 获取节点位移变量; 将节点位移变量存储到数组中,用于数据传递;! 输出对应节点的位移到csv文件 ! 注意同时导入.db和.rst,并切换到/post26模块 ! --------------------------…

赵春江杨万能 | 植物微观表型综述

北京市农林科学院信息技术研究中心赵春江院士团队联合华中农业大学杨万能教授团队发布在PBJ上的综述文章:Plant microphenotype: from innovative imaging to computational analysis,深入探讨了植物微观表型(microphenotype)的研究进展,从创新成像技术到计算分析方法的应…

结组作业,第一阶段冲刺(1)

今天是结对作业第一阶段冲刺的第一天,今天对整体项目进行了分析,对主界面进行了设计,采用Jsp+css来制作前端页面,以下为今天编写的代码: index.jsp<!DOCTYPE html> <%@ page language="java" contentType="text/html; charset=UTF-8"pageEnc…

水稻遗传育种相关生物信息数据库和工具

本综述系统梳理了近20年来开发的水稻生物信息数据库和在线分析工具,并基于内置数据集和功能对它们进行了分类和总结。水稻基因组数据库水稻转录和转录后调控数据库水稻基因网络数据库水稻种质资源信息数据库水稻常用的基因编辑系统水稻基因编辑生物信息工具与数据库水稻智能育…

我国水稻种质资源创新研究与利用进展

分享一篇水稻种质资源创新研究与利用的相关综述,内容比较全面,包括了我国水稻种质资源收集、评价与精确鉴定、水稻新品系创制、水稻杂种优势利用、水稻种质创制新技术、新方法以及水稻优异基因资源的挖掘与利用等方面。截止到2023 年,我国保存的作物种质资源有超过54 万份,…

首个种业大语言模型“丰登”(SeedLLM)

昨天被首个种业大语言模型“丰登”刷屏,崖州湾实验室、中农、上海AI实验室三家单位共同发布,官方报道侧重各有不同,这里放到一起看看。没测试,不做评价。 崖州湾实验室发布 4月28日,崖州湾国家实验室精准设计与智造团队,中国农业大学和上海人工智能实验室共同发布了首个种…

以奶牛为鉴,作物GS之路任重道远

植物和动物在GS实施上有很大的差异,这一点很多学者做过系统的比较,只能说各有优劣。不管如何,动物的GS走在了前列,有很多地方值得植物借鉴。GS技术最早在奶牛育种得到广泛应用,因此我们来看看奶牛GS的发展及国内外现状。2001年,Meuwissen等首次提出GS的概念,其基本思想是…

徐辰武2024综述:作物全基因组选择育种技术研究进展

近日,《生物技术通报》特邀扬州大学农学院徐辰武教授团队发表综述《作物全基因组选择育种技术研究进展》。本文首先分析了影响作物GS功效的主要因素,继而从非加性效应模型、群体构建方案、多性状与多环境预测、多组学预测和育种芯片技术现状等方面阐述了GS技术在作物育种中的…