Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精

Jabba: hybrid error correction for long sequencing reads using maximal exact matches

机译:Jabba:使用最大精确匹配对长序列读数进行杂交错误校正

hird generation sequencing platforms produce longer reads with higher error rates than second generation sequencing technologies. While the improved read length can provide useful information for downstream analysis, underlying algorithms are challenged by the high error rate. Error correction methods in which accurate short reads are used to correct noisy long reads appear to be attractive to generate high-quality long reads. Methods that align short reads to long reads do not optimally use the information contained in the second generation data, and suffer from large runtimes. Recently, a new hybrid error correcting method has been proposed, where the second generation data is first assembled into a de Bruijn graph, on which the long reads are then aligned. In this context we present Jabba, a hybrid method to correct long third generation reads by mapping them on a corrected de Bruijn graph that was constructed from second generation data. Unique to our method is that this mapping is constructed with a seed and extend methodology, using maximal exact matches as seeds. In addition to benchmark results, certain theoretical results concerning the possibilities and limitations of the use of maximal exact matches in the context of third generation reads are presented.展开▼

机译:与第二代测序技术相比,第三代测序平台可产生更长的读数,错误率更高。尽管提高的读取长度可以为下游分析提供有用的信息,但高错误率对基础算法提出了挑战。使用准确的短读来纠正嘈杂的长读的纠错方法似乎很有吸引力,可以生成高质量的长读。将短读与长读对齐的方法不能最佳地使用第二代数据中包含的信息,并且运行时间长。近来,已经提出了一种新的混合错误校正方法,其中第二代数据首先被组装成de Bruijn图,然后在其上对齐长读。在这种情况下,我们介绍了Jabba,这是一种通过将它们映射到由第二代数据构建的经过校正的de Bruijn图上来纠正较长的第三代读取的混合方法。我们的方法的独特之处在于,此映射是使用种子和扩展方法构造的,并使用最大精确匹配作为种子。除了基准测试结果外,还提供了一些有关在第三代阅读中使用最大精确匹配的可能性和局限性的理论结果。

背景
第三代测序平台比第二代技术产生更长的读取时间和更高的错误率。虽然改进的读取长度可以为下游分析提供有用的信息,但底层算法受到高错误率的挑战。用准确的短读数来纠正有噪声的长读数的错误校正方法似乎对产生高质量的长读数很有吸引力。将短读与长读对齐的方法不能最优地使用第二代数据中包含的信息,而且运行时较大。最近提出了一种新的混合纠错方法,将第二代数据组装成de Bruijn图,然后将长读数据对齐。
 
结果

在此背景下,我们提出了一种混合方法Jabba,通过将长第三代读取数据映射到由第二代数据构造的修正的de Bruijn图上来修正长第三代读取数据。我们的方法的独特之处是使用伪校准方法和种子-扩展方法,使用最大精确匹配(MEMs)作为种子。除了基准测试结果之外,还介绍了在第三代读取环境中使用MEMs的可能性和局限性的某些理论结果。
结论
Jabba产生高度可靠的校正读数:几乎所有校正读数都与参考对齐,而且这些对齐具有非常高的一致性。许多对齐的读数是没有错误的。此外,Jabba使用非常少的CPU时间来纠正读取。由此我们得出结论,利用MEMs伪比对是一种快速而可靠的方法,可以在de Bruijn图上映射长且高度错误的序列。

背景
准确测定生物的DNA序列,即建立DNA分子中核苷酸A、C、G和T的精确顺序,是生物学中一个基础性和挑战性的问题。从本质上讲,这个过程包括两个步骤:(1)用化学方法对DNA进行测序,产生大量的reads;(2)基因组组装,对reads进行处理,重建完整的DNA序列。每一种测序技术都会产生包含错误的读取结果,不同平台之间的错误描述差别很大。第二代读取和第三代读取之间有明显的区别,第三代读取的特点是读取长度大大提高,但错误率也高得多。
 
对于第二代测序,我们主要考虑Illumina平台。不同的Illumina技术可以产生许多短的(100 300个核苷酸)读取,具有很高的准确性(2%的错误,主要是替换),高通量和低成本。新的算法,基于de Bruijn图,专门开发了有效处理装配大量的第二代测序数据。然后,短读取之间的重叠在具有k-mer(即长度为k的子串)的读取之间的线性时间内建立。然而,de Bruijn图中的重复分辨率受到第二代数据非常短的读取长度的严重阻碍。

最近,第三代测序技术(太平洋生物科学,2013;Oxford Nano Technologies, 2014)开始出现。太平洋生物科学公司的SMRT测序结果具有更长的reads(平均5000个核苷酸),尽管有更高的错误率(高达15%,大部分是插入和删除,少量是替换)。尽管有这么高的错误率,但由于错误在读取过程中是均匀分布的,因此可以获得非常高的一致精度。如果覆盖率足够高,并且正确地建立了读取之间的重叠,这种统一的错误分布允许非常准确的一致调用。利用de Bruijn图无法有效地计算这些重叠,因为较高的错误率会导致过多的错误k-mers。因此,已经发展了其他有效的方法来计算第三代读取之间的成对对齐

误差修正
对读取序列进行测序的过程通常涉及到将它们映射到其他序列,要么将读取序列彼此对齐以建立潜在的重叠,要么将它们映射到参考基因组。读取中的错误会给这些对齐带来噪声,导致比相应的无错误读取更弱的对齐。低额定值对准可能会被丢弃以供进一步分析,潜在地丢弃关键信息。当处理低覆盖率地区的低质量读取时,这可能会产生特别大的问题。为了处理这种序列噪声,可以采用误差校正方法。通过纠正读数中的错误,可以更准确地确定最佳对准,并更适当地评级,从而产生更好的下游分析,如从头组装的[3]。

猜你喜欢

转载自blog.csdn.net/u010608296/article/details/121421736