尘封在文件夹中的GWAS和QTL定位的古老笔记

news/2024/10/4 15:33:37

long long ago,小野记录了关于重测序基因定位和GWAS相关的笔记。打开古老的文件夹,发现有些东西依然不过时,零零散散,随意发布。

QTL定位策略:

  • 群体类型:作图群体,自然群体
  • 选材策略:全群个体分析,选择基因型分析,混合分组分析
  • 优点:适合稀有基因研究;群体可控,目的性和结果预期性强
  • 缺点:需构建作图群体;定位精度低,微效QTL难检测;无法找到最优等位基因

限制家系群体定位精度的最大原因:重组事件有限,染色体没有充分“打碎”;

  • F2家系:一代的重组;
  • RIL10:十代的重组

自然群体的优势:经历多世代的繁衍后,群体中的染色体不断重组,被拆散为一个个“小模块”。

单体型块:染色体“板块漂移”,制造的“孤岛”。

最简单的模型:方差分析

GWAS分析的多阶段设计

  • 单阶段:一个群体进行关联分析。不严谨,一般为动植物类的研究。
  • 两阶段:
    阶段1:找候选关联位点。小样本(几百)全基因组关联分析,得到候选位点;
    阶段2:候选位点的验证。已有群体大样本(成千上万)或新的独立群体,候选位点的关联分析。

多阶段设计的优点:

  • 有验证的步骤:可靠
  • 降低成本:第二阶段的检测位点数较少;
  • 解决潜在的多重检验过校正的位点;重测序位点多,多重检验过于严格。例如:1M SNP , Bonferroni 校正阈值= 0.05/1*10-6=5*10-8

建议:第一阶段放宽过滤阈值,在第二阶段进行验证。由于第二阶段位点数较少,多重检验校正不会如此严苛。

GWAS完整的混合线性模型存在各类干扰的潜在效应(Yu et al., Nat Genet, 2006 38: 203‐208):

GWAS软件:Tassel、Emma、Emmax、Plink、Gemma、Gapit

群体材料对GWAS结果的影响(Breseghello F et al, Crop Sci.,2006):

群体大小对GWAS结果的影响(Yan et al, Crop Science, 2011):

群体结构和个体间潜在的系谱关系,可能会导致假阳性(Zhu and Yu, 2009, Genetics):

当性状分布恰好和群体结构一致的时候,会导致大量假阳性(Rafalski, 2010, Plant Biol):

群体结构(Q矩阵)和系谱关系(K矩阵)的校正,即Q+K模型。

动物的思路:

  • PCA分析初步判断。
  • 一般而言,动物类样本在系谱清晰,且没有明显群体结构的情况下,可以直接剔除离群样本。剔除后,继续使用PCA分析进行检查。确认没有问题后,然后使用一般线性模型进行关联分析。
  • 如果存在群体分层的迹象,再考虑使用Q矩阵进行矫正;

植物的思路:

  • PCA分析初步判断。
  • 由于品系间杂交很常见(例如玉米),所以群体结构和不同品系间的系谱关系更加普遍。
  • 所以建议分析的时候,同时使用一般线性模型和不同的混合线性模型,然后比较结果的好坏。

表型处理:

  • 正态性判断:shapiro.test(x)
  • 仅仅个别样本异常,建议剔除:如极端值,离开均值大于4倍SD
  • 如果整体偏离散,例如基因表达量值。建议取log2后,重新检验正态性。

判断模型的合理性:

  • QQplot:随机p value和检验p vlaue分布间的关系
  • 良好模式:前期一致,后期翘起
  • 过度矫正:真实的P值显著性低于随机误差

  • 矫正不足:大部分标记的显著性都高于随机误差

同一个群体,不同性状的最适模型并不相同(Yang et al, Theor Appl Genet , 2010 121:417–431):

连锁作图(QTL定位)和关联作图(GWAS)的互补性:

材料组合的精度提升:

  • 连锁分析初定位,确定QTL
  • QTL区域选择候选基因
  • 自然群体关联分析,精细定位

材料组合的可靠性提升:

  • 自然群体关联分析
  • 确定若干候选QTL
  • 连锁分析验证QTL

本文笔记主要来自基迪奥的报告,侵权删

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/44250.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

拜耳推出农业生成式AI系统GenAI

近期,拜耳公布了一项开创性的试点计划,引入了一个专业的生成式人工智能(GenAI)系统,旨在提高效率,并增强农艺师的日常工作能力。利用专有的农艺数据,拜耳利用其全球农艺师网络数百年的丰富经验,训练了一个复杂的大型语言模型(LLM)。GenAI系统代表了农业技术的重大飞跃…

泛基因组比对教程

通过代码指导 Minimmap2 基因组比对和 seq-seq-pan 泛基因组比对,并在 R 中进行可视化。本教程提供了一个示例,该示例使用Heliconius butterflies中optix基因位点的两种单倍型。 教程: https://stevenvb12.github.io/代码: https://github.com/StevenVB12/Tutorial_pan_gen…

AI育种家:作物育种的基因组预测

分享一篇近期来自华中农大王旭彤老师(即SoyDNGP作者)的综述,以SoyDNGP为例。建议参考之前的推文:基于深度学习框架的基因组预测新模型SoyDNGP。摘要 人工智能(AI)与作物育种的结合代表了向数据驱动型农业实践的范式转变,旨在提高作物改良的效率和精度。本文对大豆深度神…

国内外有哪些智能/智慧育种平台?

近日朋友圈又被“智慧育种”刷屏了,源自于中国农科院李慧慧老师团队和阿里巴巴联合在Mol Plant上发布的首个全流程智慧育种平台。详见:Mol Plant | 中国农科院作科所和阿里巴巴联合发布首个全流程智慧育种平台,恭喜李老师!据网上资料显示,中国农科院作科所与阿里巴巴(公益…

BUUCTF-WEB(81-85)

[CISCN2019 总决赛 Day2 Web1]Easyweb 参考: [CISCN2019 总决赛 Day2 Web1]Easyweb-CSDN博客 [BUUCTF题解][CISCN2019 总决赛 Day2 Web1]Easyweb - Article_kelp - 博客园 (cnblogs.com) 看robots.txt发现有备份源码然后我们又在看源码的地方发现了疑似注入的地方那我们就把这…

机器学习与基因组编辑相结合以加速作物改良

近日,扬州大学张韬团队在aBIOTECH发表综述“Integrating machine learning and genome editing for crop improvement”。随着大数据的积累,越来越多基于机器学习的方法被应用于植物科学研究,包括功能性基因和调控元件的挖掘,蛋白质结构的预测,以及表型的快速鉴定。先进的…

工具 | R包mapmixture绘制群体结构与地图分布

mapmixture简介 群体结构(admixture)绘图,R包pophelper是神器(https://github.com/royfrancis/pophelper),立个flag,下次投稿。今天给大家介绍的是另一个R包mapmixture,同样可绘制群体结构图,并与地图分布相结合。小小R包竟然能够发到MER,也是很神奇。想想几年前小野…

Crop Journal 以品种为导向的基因挖掘

近日,四川农业大学刘登才组在《The Crop Journal》发表了综述文章:Towards cultivar-oriented gene discovery for better crops,回顾了引起基因发掘与品种创新“脱节”的几个常见问题,并提出了一些建议。 许多基因在论文中被描述为有利于提高产量。但很少有真正转化为田间…