Genomes correction and assembling - Present methods and tools

基因组校正和组装-现有的方法和工具

摘要

新一代测序(NGS)技术的迅速发展对基因组学研究领域产生了重大影响，使许多以前受技术成本限制的新物种测序项目得以实施。随着NGS的发展，需要对装配程序进行调整。新算法必须在合理的时间限制内处理大量的数据计算，处理能力和硬件也是一个重要因素。在这篇论文中，我们讨论的问题组装管道de novo基因组装配提供的程序，目前可供科学家作为商业和开源软件。实现四种不同的方法—贪婪、重叠—布局—一致(OLC)、De Bruijn和导致性能变化的集成是我们讨论的主要焦点，并对短读和长读校正问题进行了深入分析。

关键词:基因组测序，下一代装配，基因组装配修正，图结构，NGS1.

介绍

新一代高通量测序平台的出现推动了新的装配算法和软件的诞生。然而，随着新的测序技术的出现，基因组的组装出现了新的问题。装配的基本问题是不可能在一次读取中直接测序整个基因组与目前的测序平台的实施。取而代之的是散弹枪方法。通过将基因组分成随机的短序列，我们获得了大量的短序列数据集，这些短序列数据集用于基因组重组过程，即基因组装配。随着以高通量测序和大量数据生成为特征的新一代测序技术的出现，基因组装配者面临的挑战是在信息处理、索引和装配过程中克服计算资源的限制。这项任务还受到测序错误(每个NGS平台的特征)和基因组中重复区域的阻碍。本文综述了近年来在科学期刊上提出的利用NGS数据进行基因组从头组装的算法。

2. SEQUENCING TECHNOLOGIES

基因和DNA测序的革命始于第二代测序平台的发展，也被称为下一代测序。这些技术的一个显著特点是它们不依赖于桑格化学[1]，而是提供了高度并行操作、更高的收率和更简单的机理。所有序列器都以reads的形式生成目标DNA片段的信息:单字母基调用的序列加上每个基调用的数值质量值(QV)。尽管qv提供了额外的信息，但它们的使用通常会增加程序的CPU和RAM需求。第一代读数通常为500 bp到1000 bp长。今天的NGS读取范围是400 - 600 bp(从454个[3]机器)，75 - 100 bp(从固体[4]和Illumina[3])，长读甚至超过20 kb(与太平洋生物科学[5])(表1)。短读的组装需要更高的覆盖率，部分是为了满足最小可检测重叠标准，而在长读的情况下，高错误率是一个问题，高覆盖率可以克服这个障碍。然而，高覆盖率增加了复杂性，并加剧了与大数据集相关的计算问题。

3. ASSEMBLY PIPELINE

基因组装配过程是将序列数据映射到最有可能重建基因组的数据的结构化过程。它把读到的片段分组成叠架，把叠架分组成支架。这个过程分为几个阶段。顺序读取和质量值以FASTA或FASTQ文件的形式导入汇编程序，然后进行索引和排序数据集更容易访问和管理的汇编软件。某些汇编器提供了过滤或校正步骤，这些步骤也可以通过独立的软件来执行，从而提高读取质量，实际上减少了不正确的汇编概率。图构造步骤生成读取之间的相关(重叠)的数学说明。在不同的实现方法中，这一阶段过渡到路径检测，它提供了最可能的读序列比对，从而产生一致序列，在理想情况下，该序列表示染色体或基因组(图1)。结果以一组contigs或支架(取决于汇编器)的形式提供，并以非汇编读作为补充。这是对所有可用软件的通用装配管道的概述(表2)，它根据实现的方法、支持的排序技术和附加的阶段、开发人员为优化装配过程提供的配置而变化。

3.1修正

与Sanger测序[1]相比，NGS数据有更高的错误率，这一特性给计算带来了很多挑战，尤其是在从头开始的汇编中。降低基础调用的错误水平，提高基础特异性质量分数的准确性，对于NGS数据的装配、多态性检测和下游群体基因组学分析具有重要的现实意义。在太平洋生物科学中，由于高错误率掩盖了reads之间的比对并使分析变得复杂，因此错误校正尤其重要，因为两个reads之间的两两差异大约是它们各自的两倍，这远远超出了大多数基因组组装者所能容忍的阈值。(6、7)替代误差是Illumina测序技术产生的数据中占主导地位的误差来源，目前大多数方法侧重于替代误差的校正。现有的工具要么在召回率或精确度方面得分较高，要么在两项指标上都不一致。

3.1.1短读校正

从改进图像分析和碱基调用算法[8Erlich]，到改进碱基调用后的潜在错误，短核苷酸序列的校正已经发展了很长时间，这些错误是通过利用基因组中每个位置平均被测序多次的[9]来实现的。最近的修正方法由ECHO和滑膛枪程序代表。前者提供了最佳参数检测和误差说明过程的自动化。ECHO的基础是查找读操作之间的重叠部分，这样可以在不聚集潜在有用信息的情况下保存更多数据，但是会增加计算强度。此外，ECHO明确模拟二倍体基因组的杂合性，并允许以一种新的方式处理二倍体数据。另一种基于k - mer谱的方法为Illumina平台提供了有效的替代误差校正。该过程包括两个阶段:k-mer谱构建和误差校正。对于k-mer谱结构，Musket使用Bloom filter[11]和散列表的组合来计算所有非唯一k-mers的出现次数，从而减少对大型数据集的内存需求。在纠错方面，Musket引入了三种技术，即双边保守纠错、单边积极纠错和基于投票的改进[12]。执行短读的错误纠正作为预处理步骤，可以极大地简化从头组装，特别是在低到中等的序列覆盖深度的情况下。

3.1.2长读校正长

读校正的方法是使用短的、高精度的序列来校正长单分子序列中固有的错误。这个实现有两种方法，一种是在Celera Assembler中开发和构建的，另一种是由LSC程序提供的。前者使用PBcR算法将短序列映射到长序列上，计算出高精度的混合一致性，从而实现对[13]的进一步修剪和校正。LSC的第二种方法则不同。第一阶段是均聚物压缩，每个均聚物被一个核苷酸取代。它既适用于短读，也适用于长读。其次，将长读序列连接到染色体大小序列，创建短读序列映射的参考。对齐后，根据一致信息修改LR，并进行均聚物减压[14]。这种校正方法将读取精度从85%提高到99%以上，为从头装配提供了高质量的序列。

3.2图形构建和路径检测

在对reads数据进行了介绍和索引之后，通过可选的校正，这个阶段开始通过结合reads形成更长的连续序列(contigs)来对已测序的基因组进行适当的组装。为了实现这一功能，汇编程序合并了共享重叠区域的读操作。大多数NGS汇编程序将它们的输入短读格式化为图形数据结构，但是它们在初始图形构造、配置、遍历和简化过程方面有所不同。图是由节点(顶点)和边表示的抽象数学结构，分别对应于读字符串和后缀与前缀重叠的[15]。基于贪心的、基于OLC的、基于德布鲁因的和基于混合的四类图构造方法是当前图构造的主要发展方向。在接下来的章节中，我们将分别讨论它们。

3.2.1基于贪婪算法

将贪心算法用于网络图的构造，实现了网络图的构造。这种方法依赖于一个操作，从随机读开始，与另一个读结合，创建叠叠。此操作将重复进行，直到只剩下一个序列或不可能有其他操作为止。合并读取的过程基于最高的重叠分数(Figre 4)。贪心算法可能会陷入局部极大值，如果手头上的叠架进行读取，这将帮助其他叠架变得更大。像所有的汇编器一样，贪婪算法需要避免将伪正重叠合并到叠架中。重复序列引起的重叠可能比共同原点位置引起的重叠得分更高。建立在假阳性重叠上的汇编程序将把不相关的序列连接到重复序列的任意一边以产生嵌合体。基于贪心算法的汇编器适用于小型基因组。该方法用于SHARCGS[16]、SSAKE[17]和VCAKE[18](表2)。

3.2.2 Overlap-based（基于重叠群）

在基于重叠的汇编语言中，图形构造过程包括三个阶段:重叠、布局和一致(OLC)[19]。程序首先检测输入的读取之间的所有重叠。接下来，在图中对信息进行索引和组织，其中读取用节点表示，节点之间用边重叠。在第二阶段，layout计算出了访问图中每个节点一次的最短哈密顿路径，从而给出了序列装配问题的结果。在共识阶段，使用汉米尔顿路径将读合并成一个序列(contigs)(图5)。最小重叠长度是装配算法成功的关键。由于较小的值会通过增加错误重叠的频率来增加图中的分支节点，较大的值将通过增加非重叠读取[20]的频率来增加死角。

3.2.3 De Bruijn-based

这种范式也称为k谱方法，由几个阶段组成。一开始，k- mers是根据所提供的读码生成的，读码代表k-谱。在随后的相位图中，节点表示k - mers，边表示相邻节点之间的k - 1重叠。在理想情况下，通过只访问每个节点一次来检测欧拉路径(图6)。De Bruijn图是在新的装配策略中实现的，特别是解决基因组中的重复序列问题，是目前软件面临的主要挑战。这个范例是由最近编译的算法开发的。该算法是一种基于k维加权的de Bruijn多重图的新算法，能够检索出重复序列的长度段采用短读，专为NGS数据的从头装配而设计。该算法根据覆盖统计信息估计SSR长度，并能够正确地组合连续的重复序列。该算法仅使用DNA双螺旋结构的编码链，因此其应用受到限制。它在无错读上进行了测试，从几个模型基因组中得到的二氧化硅比其他算法少5%的重叠基因组。这个算法扩展了[27]，它可以从两个链(编码和互补)读取数据，但仍然不使用配对数据。De Bruijn图是在诸如ALLPATHS - LG[28]、Velvet[29]、Euler[30]、ABySS[31]和SOAPdenovo[32]这样的汇编程序中实现的(表2)。

3.2.4集成

集成方法是两种不同的图结构模型之间的混合，旨在通过利用使用的模型的优点来提高汇编程序的性能。在Taipan[33]中实现了OLC和贪婪图的混合，其中节点是读，边代表重叠，并且遍历图来寻找贪婪路径，而不是像OLC方法[34]那样寻找哈密顿路径。该特性能够实现与基于重叠的汇编器相对应的汇编质量，但是减少了对计算能力和硬件资源的要求。此外，还有针对不同平台使用不同类型reads的方法，Wang提出了使用三种平台(454、SOLiD和Illumina)来减少最终基因组序列的间隙数和延长支架长度的方法[35,36]。

3.3叠架与支架组装

在每一种讨论的方法中，汇编器根据图中检测到的路径(贪心的，哈密顿的，欧拉的)，并以未装配的读集合作为补充，提交一组生成的contigs。根据NGS技术、覆盖范围、使用软件和校正步骤的不同，获取的叠架数量可能有所不同。除了contigs数量，汇编器还提供统计分析，包括在contigs中的核苷酸数量，平均的contig长度，平均值，N25,N50和N75值，这对汇编过程的质量有重要的概述。采用配对/配对端数据的汇编器在一定程度上克服了重复区域问题，提高了汇编质量，增加了contigs的平均长度，并在一些软件生成支架中实现了更好的基因组组织。

4. 转录组的组装

最近的研究进展使得利用深度RNA-Seq重新构建整个转录组成为可能，即使没有参考基因组。然而，来自数十亿个RNA-Seq序列的转录组组装(通常非常短)对信息学构成了与基因组组装类似的重大挑战。已经开发了一些从头开始的转录组汇编器。Rnnotator[37]、multik[38]和Trans-ABySS[39]汇编程序遵循相同的策略;他们使用基于De Bruijn图的方法6-8,58对数据集进行多次组装，从广泛的表达水平重建转录本，然后对组装进行后处理以合并contigs并消除冗余相比之下，其他汇编程序(Trinity[40]和Oases[41])通过应用配对端读取信息直接遍历De Bruijn图，在每个轨迹上装配每个亚型。

5. 结论

基于新一代测序数据的基因组装配过程面临着读取长度短、大多数测序平台的高通量、测序错误和基因组重复区域等难题。此外，不同类型的读取和质量值强制装配参数的自定义取决于使用的排序平台和计算资源。像第一个汇编器一样，新的汇编器仍然缺乏交互的用户界面，这是一个障碍，限制了没有信息学背景的科学家使用这个软件。本文讨论了利用NGS数据进行新基因组组装的几种方法。OLC图和De Bruijn图是装配领域中最常用的两种方法。两者都依赖于输入读之间的重叠，并将这些集合转换为直接图。它们不同的图形表示是相似的，如果不是等价的。与OLC方法相比，DBG范式在计算资源方面具有较大优势，更适合于管理主要来自短读排序技术的大数据集的读操作。数据量将继续增加，而制造成本下降。测序技术的出现，无论是在吞吐量和读取长度都为更简单和更快速的大基因组测序创造了机会重复区域的数量。这种演变为装配软件开发人员寻找有效的数据管理和装配过程的解决方案带来了新的挑战。

参考文献

https://www.spiedigitallibrary.org/conference-proceedings-of-spie/9290/92901X/Genomes-correction-and-assembling-present-methods-and-tools/10.1117/12.2075624.short?SSO=1