徐辰武2024综述:作物全基因组选择育种技术研究进展

news/2024/10/4 13:24:05

近日,《生物技术通报》特邀扬州大学农学院徐辰武教授团队发表综述《作物全基因组选择育种技术研究进展》。本文首先分析了影响作物GS功效的主要因素,继而从非加性效应模型、群体构建方案、多性状与多环境预测、多组学预测和育种芯片技术现状等方面阐述了GS技术在作物育种中的研究进展,并指出研究所面临的问题和发展前景,为推动作物GS育种技术的进一步深入研究提供策略和思路。

以下摘自文章部分要点,更多详细信息请阅读原文。

全基因组选择方法概述

  • LASSO在线性回归的基础上添加了L1 正则项,通过构造一个惩罚函数得到较为精炼的模型,将大部分标记的效应压缩为0,是一种选择收缩算法。
  • 岭回归(RR)在线性回归的基础上添加了L2 正则项。
  • 弹性网(EN)则同时使用L1 和L2 正则化,是LASSO 和岭回归的结合。
  • 贝叶斯类方法假定标记的效应服从一定的先验分布,其中BRR 假定所有标记的效应有着相同的方差,这一点与GBLUP 无差别利用大量标记信息计算G 矩阵的效果相似。
  • BayesB几乎在最大程度上对标记效应进行选择收缩和差别对待,因此成为选择收缩算法的代表,特别适用于由少数主效基因决定的性状。
  • 机器学习模型能够更好地对基因型和表型之间的非线性关系进行学习,不过其缺点是可解释性往往较差,难以对生物样本的遗传效应组成进行分解,以及对各个位点的效应进行评估(提高优异等位基因聚合的效率)。

全基因组选择功效的影响因素

  • 训练集与测试集之间紧密遗传关系对模型预测的积极贡献。然而大量增加与测试群体遗传相似的训练样本,可能降低优选品种的遗传多样性,从而不利于长期的遗传增益。因此,在实际育种中需要寻求训练集和测试集之间关系的平衡。
  • 理论上,标记密度越大越好,但是与训练种群的数量相比,其对预测精度的影响较小。在实际的作物GS 应用中,根据我们的经验,使用全基因组上均匀分布的数万个SNP 标记具有较高的性价比。
  • 随着世代的增加,标记和QTL 的LD 会逐渐降低。遗传力较高性状的基因组预测准确性降低较慢。
  • 前人的研究表明,遗传力为0.2的性状需要的训练样本数量超过1000。
  • GBLUP 和RR-BLUP 的稳健性较强,其预测精度不受QTL 数目的影响,在预测作物产量等由大量微效基因决定的性状时,更具优势。
  • 超参数的选择对一些机器学习方法的性能影响较大,如深度学习中网络层数、神经元数目、滤波器大小、迭代次数和激活函数的不同调优方案,可能产生完全不同的预测效果。
  • “大p,小n”问题,即标记数目远大于样本量,容易导致多重共线性和过度拟合,进而影响模型表现的稳定性,以至于没有哪种方法在大多数情况下都能保持领先的预测精度。
  • 除了常规的标准化或归一化等预处理,还应开发与基因组信息特征相适应的降维方案,采用单倍型划分或主成分分析等方法,在保留大部分标记信息的基础上大幅减少自变量数目,降低过拟合的风险,以提高GS 中众多选择收缩方法的健壮性。

全基因组选择方法的拓展

  • 很多学者提出在GS 中有必要考虑非加性效应。但如何对基因型值进行科学编码以正确反映显性和上位性等遗传效应,是非加性模型构建所面临的重要挑战。(这两篇文章可以参考:https://doi.org/10.1590/1678-992X-2021-0074;DOI: 10.1038/s41467-023-39534-x)
  • 有效的基因组预测模型只需要整个训练集大小的2%-13%,揭示了对海量遗传组合高效推断的可能。
  • 在杂种预测中,单纯对亲本育种值的优选会导致遗传多样性的丧失,为了保持基因组多样性,在亲本选择过程中应避免选择亲缘关系密切的材料。有研究提出了一种平衡育种值和遗传多样性的折中策略。
  • 在科学开展遗传交配设计的基础上,GS 模型还可用于GCA 等育种指标的精确预测。
  • 将GCA 当作因变量,首先需要获得所有训练集亲本的GCA 值。NCII设计受限于成本和田间试验条件,很多情况下作物的组配设计是稀疏的。SPDC 设计在稀疏条件下利用全基因组标记对玉米亲本能够实现GCA 的精确估计。
  • 在进行多环境的联合GS 过程中,首先明确大环境的划分,继而将同一大环境内尽可能多的表型观测信息纳入模型,是一种行之有效的策略。
  • 转录组和代谢组相较基因组更接近生物的表型,其数据的充分使用有利于预测精度的提高,不过将其用于育种实践的困难是,数据获取成本相对高昂,且杂交种的转录组和代谢组都难以像基因组一样直接从亲本的组学信息中精确推断,其预测能力可能显示出对性状的特异性。相对于组学数据,单交种双亲的表型信息更容易在早期以较低的成本获取。
  • 将作物亲本表型信息纳入杂交种表型预测的策略,可提高性状的预测准确性(可参考: DOI: 10.1111/pbi.13458)。

全基因组选择育种芯片研发现状

目前超过25 种作物中已经开发了百余款芯片,包括:

  • 水稻的代表性芯片有RICE6K、RiceSNP50、GenoBaits® Rice 40K等;
  • 玉米代表性芯片有MaizeSNP600K、MaizeSNP50 Beadchip、Maize6H-60K、GenoBaits® Maize 45K 等;
  • 小麦代表性芯片有Wheat 9K iSelect、Wheat 90K iSelect、Wheat 660K Axiom、Wheat HD Genotyping Array、GenoBaits® WheatSNP16K 等;
  • 马铃薯代表性芯片有SolSTW array 等;
  • 大豆代表性芯片有SoySNP50K 和SoyaSNP 180K Axiom 等。

缺点:

  • 现有芯片信息覆盖度不高,缺少SV;
  • 现有芯片通用性不足,不同基因型数据难以共享;
  • 对于大规模育种应用,芯片检测成本仍然较高;
  • 缺乏育种芯片专用的分析软件和平台;
  • 我国底盘技术创新不足,核心技术受制于人。

全基因组选择育种展望

挑战:

  • 一般的GS 方法只考虑加性效应,部分学者将显性及上位性等效应纳入模型,但是预测效果还不够理想;
  • 前人的GS 研究大多只针对特定环境下特定作物群体的单个性状,忽视了关联性状共同的生物学基础以及多性状的协调发展,且缺乏详细的环境组学数据,难以实现对基因环境互作模式的识别与利用;
  • 多数GS 研究只用到基因组信息,多组学信息和研究成果没有得到充分利用;
  • 缺少GS 育种专用芯片以及配套软件和平台,数据共享程度低,限制了GS 效率的提高;
  • 作物领域中已有的GS 研究很多停留在方法探索阶段,未能广泛付诸于实际的育种工作。

展望:

  • 结合已有的生物学和遗传学研究成果,遴选作物全基因组上目标性状的候选基因,开发与基因组信息特征相适应的降维方案,以大幅降低模型中的变量数目,同时应用人工智能领域中的先进算法,提高对各类非加性遗传效应的准确预测;
  • 广泛收集表型、基因型和环境数据,并对模型进行优化,注重作物多个性状之间的协调发展,识别并利用基因环境互作模式,提高选择的增益和可靠性;
  • 结合人工神经网络,机器学习等最新的数学方法,积极开展作物多组学预测研究,构建多组学信息与目标性状之间的数量遗传模型,提高多组学联合预测的效果;
  • 谋划构建GS 专用芯片和统一的GS 平台,实现群体之间的信息共享与利用,提高数据的利用率;
  • GS 研究必须结合农业发展的实际情况与切实需求,让理论和方法研究更好地服务于实际育种工作,为培育适应机械化生产、优质高产多抗广适作物新品种提供高效途径。

如需要原文,可联系小编。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/44260.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

玉米野生种基因组研究进展及应用

近日,《生物技术通报》特邀浙江大学农业与生物技术学院陈露研究员(原严建兵老师学生)团队发表综述《玉米野生种基因组研究进展及应用》。本文主要综述了大刍草的基因组进化、数量遗传学、群体遗传学等方面的研究进展,同时对大刍草在未来玉米遗传育种中的应用进行了展望。玉…

汉字是如何编码的

本文我们简单聊聊汉字编码方案,例如 GB2312。本文我们简单聊聊汉字编码方案,例如 GB2312。 ‍ GB2312 的字符集 字符编码,是对字符进行的编码,那么首先得有一个字符集,然后再去编码,就像 ASCII 码也是对 ASCII 字符集进行的编码。 那中国的字符集怎么设定呢?以 GB2312 为…

exe加壳

New Project:新建项目, Open Project:打开已有项目 Save Project:保存项目 Protect:发布项目,会生成加壳以后的exe 本文来自博客园,作者:小康0,转载请注明原文链接:https://www.cnblogs.com/z13753176959/p/18250272

JGG | 严建兵团队综述生物大数据驱动作物智能设计育种

近期,华中农大严建兵团队在Journal of Genetics and Genomics上发表综述:Engineering the future cereal crops with big biological data: towards an intelligence-driven breeding by design。该文回顾了近年来在作物育种领域取得的进展,涵盖了作物农艺性状的机制、新兴技…

FDRS | 一个开源的智慧农场中继系统

分享一个智慧农业开源项目:农场数据中继系统(Farm Data Relay System, FDRS)。这是一个利用现代信息技术,如物联网(IoT)、大数据和云计算等,为农业生产提供数据支持和管理优化的系统。该系统的核心功能是收集、处理和分析农场相关数据,帮助农民更精准地进行作物种植和管…

farmOS | 一个免费开源的智慧农场管理系统

farmOS简介 farmOS 是一个基于 Web 的应用程序,用于服务器场管理、规划和记录保存。它由农民、开发人员、研究人员和组织组成的社区开发,旨在为农业数据收集和管理提供标准平台。 farmOS服务器建立在Drupal之上,这使得它模块化、可扩展和安全。farmOS Field Kit 应用程序通过…

尘封在文件夹中的GWAS和QTL定位的古老笔记

long long ago,小野记录了关于重测序基因定位和GWAS相关的笔记。打开古老的文件夹,发现有些东西依然不过时,零零散散,随意发布。QTL定位策略:群体类型:作图群体,自然群体 选材策略:全群个体分析,选择基因型分析,混合分组分析 优点:适合稀有基因研究;群体可控,目的…

拜耳推出农业生成式AI系统GenAI

近期,拜耳公布了一项开创性的试点计划,引入了一个专业的生成式人工智能(GenAI)系统,旨在提高效率,并增强农艺师的日常工作能力。利用专有的农艺数据,拜耳利用其全球农艺师网络数百年的丰富经验,训练了一个复杂的大型语言模型(LLM)。GenAI系统代表了农业技术的重大飞跃…