GB | Seqrutinator:一个用于鉴定和去除非功能性序列的基因家族分析流程

news/2024/10/6 22:10:04

分享一篇近期发表在 Genome Biology 上 的一个基因家族分析软件:Seqrutinator。该软件用于识别和去除基因家族数据集中的无功能基因,包括假基因、测序错误、基因结构错误、比对错误等,从而避免基因家族鉴定中的假阳性结果,进一步确保基因家族注释的准确性,以便于后续系统发育分析和功能聚类。

图片

背景意义

目前,基因家族鉴定流程并无唯一标准,但大多是基于 Blast 和 Hmmer,再辅以手工校正。无标准鉴定流程,导致不同流程、不同参数、不同校正过滤标准,都会对同一基因家族鉴定数目和基因上存在差异,从而对后续结果产生影响。

准确构建超家族系统发育树和进行多序列比对(MSAs)仍然是一个主要研究领域。为了提高MSA的质量,研究人员经常修剪掉不太可靠的列,但这可能会丢失信息。此外,非功能性同源物(Non-Functional Homologues, NFHs)提供的序列信息通常被视为噪声,可能会干扰MSA的正确处理。

Seqrutinator的设计

Seqrutinator的设计理念是提供一个目标序列审查方法,用于检测和移除NFHs。该工具通过四个假设来识别NFHs:短序列不太可能是功能性的;NFHs可能在MSA中引起大量连续的间隙丰富的列;NFHs可能在MSA中显示出大量连续的间隙;以及与超家族的HMMER剖面相比,伪基因和其他类似序列可能具有低相似性和低分数。

Seqrutinator由五个模块组成,包括短序列移除器(SSR)、非同源命中移除器(NHHR)、间隙引发器移除器(GIR)、连续间隙序列移除器(CGSR)和伪基因移除器(PR)。用户可以选择模块、它们实施的顺序以及影响自动化审查和过滤严格性的设置。

图片

Seqrutinator 流程示意图

Seqrutinator的性能评估

研究者使用了19个完整的蛋白质组数据集,包括16种植物物种、两个版本的拟南芥蛋白质组以及两个版本的SwissProt数据集。通过Seqrutinator处理后,发现在拟南芥蛋白质组中移除的序列数量相对较少,而在最近发布的松树蛋白质组中移除的序列数量超过80%。这表明Seqrutinator能够一致地识别和移除NFHs。

Seqrutinator的应用效果

Seqrutinator处理后,MSA的质量得到了显著提高。通过使用BMGE工具修剪MSA,发现处理后的MSA中可靠列的数量显著增加。此外,Seqrutinator处理后的序列集在进行HMMERCTTER聚类分析时,产生了更大和更少的聚类,这表明Seqrutinator有效地去除了NFHs,而不是功能性同源物(Functional Homologues, FHs)。

讨论与结论

Seqrutinator是一个有效的工具,可以帮助自动化地挖掘蛋白质超家族序列,并且只要序列是真正同源的,它就能提供良好的结果。对于更复杂的情况,应该将序列分割成真正同源的子集以获得最佳结果。Seqrutinator的开发和测试表明,它是一个灵活且一致的工具,能够在不同数据集上识别和移除NFHs,从而改善MSA的质量,并为后续的系统发育分析和功能聚类提供更准确的数据集。

数据和材料的可用性

所有数据集均来自公共序列集。Seqrutinator软件(包括辅助脚本MuFasA和SeqYNet)代码可以在GitHub或Zenodo的存储库中免费下载。

Github:https://github.com/BBCMdP/Seqrutinator

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/68463.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

AssemblyQC:一个基因组组装质量评估的综合流程

分享一篇近期发表在 Bioinformatics 上的文章:AssemblyQC: A Nextflow pipeline for reproducible reporting of assembly quality,这是一个基因组组装质量评估的综合性流程,集合了准确性、连续性和完整性等多项指标(这是小编一直想做的事情,现有轮子,分享给你)。该流程…

植物学复习:植物各部分组织的中英文名称

来源:soybean informations本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18449471。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。

国内首次在玉米中成功应用全基因组选择技术选育出新品种

近日,四川农业大学玉米研究所兰海教授团队在《Frontiers in Plant Science》上发表了题为“Genomic prediction of yield-related traits and genome-based establishment of heterotic pattern in maize hybrid breeding of Southwest China”的研究论文。论文系统总结了该团…

GATK joint calling的逻辑、原理与优势

GATK(Genome Analysis Toolkit)中的joint calling是一种变异检测策略,它允许同时对多个样本进行变异位点的分析,以提高变异检测的准确性和效率。以下是joint calling的一些关键原理和优势:数据共享:在joint calling过程中,信息在所有样本间共享。这意味着如果一个样本在…

深入理解异常和中断(Cortex-M3)

异常和中断的深入了解对于调试很有用,也非常有助于对RTOS的理解,本文是阅读Cortex-M3权威指南和ST、ARM的技术文档,总结出比较精炼的文档。中断一般是由硬件(如外设和外部输入引脚)产生的事件。异常一般指CPU内部产生的打断。但是,也可以把中断称为一种异常我们一般称为系…

ch被动扫描学习

在渗透测试中,被动扫描就像斥候一样担任前驱搜查的任务,帮助后续的渗透攻击等的深入推进提供十分重要的信息。当然,正如一双锐利的眼和好的侦查工具是一名优秀侦察兵的标配,在进行渗透测试的时候,优秀的搜索引擎就是信息收集者的”夜行衣”和“望远镜”。借助它们我们可以…

Nuxt.js 应用中的 app:suspense:resolve 钩子详解

title: Nuxt.js 应用中的 app:suspense:resolve 钩子详解 date: 2024/10/6 updated: 2024/10/6 author: cmdragon excerpt: app:suspense:resolve 是一个强大的钩子,允许开发者在异步数据解析完成后的最后一步执行必要的处理。通过合理使用该钩子,我们可以优化组件的渲染…

多校A层冲刺NOIP2024模拟赛02 csp-s模拟9

多校A层冲刺NOIP2024模拟赛02 四道题因为暑假被拉去当模拟赛 暑假集训CSP提高模拟22 了,遂直接把赛后代码交了上去,然后就被通知换题了。 原 \(100+100+100+20\) 被在 accoders NOI 上被卡成了 \(100+100+90+10\) ,更改 long long 和 int 后达到了 \(100+100+100+30\) 。 \(…