RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差异表达分析: 扩展评论和软件工具

RNA-Seq differential expression analysis: An extended review and a software tool   RNA-Seq差异表达分析: 扩展评论和软件工具

正确鉴定特定条件之间的差异表达基因(DEG)是理解表型变异的关键。高通量转录组测序(RNA-Seq)已成为这些研究的主要选择。

因此,用于RNA-Seq数据的差异表达分析的方法和软件的数量也迅速增加。 但是,对于最合适的管道还是没有达成共识用于从RNA-Seq数据鉴定差异表达基因的方案。这项工作对该主题进行了扩展审查,其中包括对六种绘图方法的评估读取,包括伪对齐和准映射以及来自RNA-Seq数据的九种差异表达分析方法。

使用qRT-PCR数据作为参考(金标准),基于真实RNA-Seq数据评估所采用的方法。作为结果的一部分,我们开发了一个软件,可以执行本工作中提供的所有分析,可在https://github.com/costasilvati/consexpression免费获取。结果表明,考虑到映射方法对最终DEG分析的影响很小采用的数据有一个带注释的参考基因组。关于采用的实验模型中,具有更一致结果的DEGs识别方法是limma + voom,NOIseq和DESeq2。此外,五种DEG识别方法的共识保证了DEG的列表具有很高的准确性,表明了这种不同的方法组合可以产生更合适的结果。共识选项也包括在内用于可用的软件。

介绍
高通量测序已成为测量表达水平的主要选择,即RNA-Seq [1]。RNA-Seq可以在不事先了解参考文献的情况下进行感兴趣的序列,允许广泛的应用,如:“从头”重建转录组(没有参考基因组),核苷酸变异的评估,评估甲基化模式[2],仅举几例。RNA-seq技术比cDNA微阵列具有一些优势,例如高通过泳道和流通池的数据再现性水平,这减少了实验的技术重复数量。

此外,RNA-seq可以识别和量化同种型和未知转录本的表达[3]。关于越来越受欢迎高通量测序方法,下一代测序实验的成本

已大幅下降。然而,对于RNA-Seq的定性和定量分析的清晰理解尚未实现,特别是与较老的方法如cDNA微阵列相比时[4]。

一般而言,RNA-Seq技术对于涉及某些特定条件的差异表达分析非常有用[5],其中通常采用五个步骤[6,7]。 首先,将RNA样品片段化成小的互补DNA序列(cDNA)和然后从高吞吐量平台排序。

其次,将小的生成序列映射到基因组或转录组。第三,估计每种基因或同种型的表达水平。第四,映射的数据被标准化,例如使用统计和机器

在学习方法中,鉴定了差异表达的基因(DEG)。 最后,最终从生物学背景中评估所产生数据的相关性[8]。随着RNA-Seq技术的日益普及,开发了许多软件和管道

这些数据的差异基因表达分析。来自RNA-Seq的差异基因表达分析方法可以分为两个主要子集:参数和非参数。参数方法捕获有关参数内数据的所有信息。

在这些情况下,可以通过观察采用的模型及其参数来预测未知数据的值。当参数化方法应用于差异基因表达假设,通常在归一化后,给定基因的每个表达值被映射到特定分布,例如泊松[9±11]或负二项[12±14]。

另一方面,非参数方法可以捕获关于数据分布的更多细节,即,不强加拟合的刚性模型。这是可能的,因为非参数模型考虑到不能从有限的参数集定义数据分布,因此关于数据的信息量可以随着其体积而增加。

关于RNA-Seq差异表达分析,一些工具如edgeR [13]和baySeq [11]采用负二项模型作为主要方法。

其他软件工具,如NOIseq [15]和SAMseq [16],采用非参数方法。

一些方法基于转录物检测,其已被开发用于鉴定未知的转录物或同种型,并且还可用于鉴定DEG,例如EBSeq [17]和Cuffdiff2 [18]。如今,关于哪种方法最为重要,尚未达成共识适当的或哪种方法确保结果在稳健性,准确性方面的有效性和再现性。生物信息学研究中的这一主题仍在发展[5,19,20]。为了评估DEG的标准化和检测的统计方法以及文库制备对结果的影响,开发了一些研究工作[10],通过考虑微生物来评估差异表达分析的方法,包括用于分析的映射方法[21],并用模拟数据评估软件和管道[20,22]。特别是Rapaport等人。 [23]评估了实际数据集中差异表达分析软件的概要,考虑了分析的特征,如准确性,标准化,DEG的检测和没有检测到表达的条件。张等人。 [5]评估了重复次数,测序覆盖率和比较组的影响。郭等人。表明三种DEGs鉴定方法之间的排序可以产生更准确的鉴定[24]。李等人。 [8]评估标准化用于DEG检测的方法,表明两种标准化方法的结合导致更好的结果。Seyednasrollah等。 [25]介绍了八种软件工具的比较

实际数据中的DEG分析。Germain等人。 [26]介绍了有关RNA-Seq数据分析步骤的工作,比较了不同的转录物定位和定量方法,同时也为采用的方法比较提供了一个在线工具。

最近,Yu等人。 [27]提出了一个基于模拟的程序,采用负二项分布和广义线性模型(在基因水平)。该方法的主要目标是降低先前研究中报道的I型错误的高发率[17],即

假阴性。Abedalrhman和Rueda [28]介绍了Zseq工具,指出了高通量测序数据分析中预处理步骤的重要性。 更具特异性,Zseq专注于改善成绩单的组装,用不同的预处理方法评估DEGs的结果。

另一方面,其他方法一直关注评估其他观点,例如RNA-Seq实验所需的生物复制数量,以及基于实验重复次数分析差异表达的最合适工具[29]。 。从Sahraeian等人的不同角度对RNA-seq数据进行全面而系统的分析。除了先前产生的RNA-Seq数据的表达分析外,al(2017)可以作出显着贡献[30]。与这些研究不同,我们评估了映射方法对差异基因表达分析结果的影响。

我们还通过不同的视角评估DEGs分析的方法,不仅指出了更好的方法。先前的研究及其结果表明,DEGs分析受许多因素的影响,如文库的制备和实验的结构。在这种情况下,我们用RNA-Seq数据分析了DEG鉴定中必需步骤的影响,并开发了一种软件,可以获得主要DEGs鉴定方法的结果。六个映射器之间的比较研究,包括一个伪对齐和一个通常用于差异表达研究的准映射工具,导致识别

这一步骤在DEG的分析和鉴定中的重要性。还采用了金标准qRT-PCR数据,以评估DEG鉴定工具的准确性,并指出其结果具有高可靠性的工具。这项工作的另一项贡献是评估DEGs识别方法的综合结果,

我们的工具允许执行五种不同的差异表达分析方法的共识,结果表明差异表达的基因具有更高的可靠性和准确性。在本研究中,我们用RNA-Seq数据对差异基因表达分析的主要方法进行了扩展回顾,评估了作图和量化方法的影响。在本研究中,我们采用了绘图软件Bowtie2 [31],TopHat [32],BWA [33]和STAR [34]。对于其他方法,例如伪对齐和准映射,我们采用了kallisto [35]和Salmon [36]。我们分析了差异表达分析软件,它代表了该领域的最新技术水平,例如baySeq [11],DESeq [12],DESeq2 [37],EBSeq [17],edgeR [13],limma + voom [38],NOIseq [15,39]和SAMseq [16]。将映射结果用作一些差异表达分析软件工具的输入,并将其结果与qRT-PCR进行比较[40],从而验证与不同映射器相关的每个软件的准确性。

结果表明,NOIseq [15,39],limma + voom [38]和DESeq2 [37]是考虑精度,准确度和灵敏度最平衡的软件。我们评估了不同方法中个体和综合方式的结果。

结果表明,一组软件可以比单个解决方案一起产生高精度和准确性。 最后,这项工作仍然很容易作为软件工具的贡献适用于差异基因表达分析的不同实验。该软件工具提供了一个集成执行,具有映射,映射计数(如果需要)和表达水平的量化,表明所采用的方法在识别DEG时的性质和准确性的特征。

猜你喜欢

转载自www.cnblogs.com/wangprince2017/p/9398146.html