长期校正方法的基准测试
抽象
太平洋生物科学公司和牛津纳米孔技术公司提供的第三代测序技术可产生千碱基对规模的读取长度。然而,这些读数显示出很高的错误率,并且校正步骤对于实现其在基因组学和转录组学中的巨大潜力是必需的。在这里,我们比较了PacBio和Nanopore数据的特性,并评估了Canu,MARVEL和proovread在各种组合中的校正方法。我们发现原始数据集中的总错误率约为13%。PacBio读物显示出很高的插入率(大约8%),而Nanopore读物显示出相似的替换,插入和删除率,分别约为4%。在这两种技术的数据中,错误均沿读数均匀分布,除了嘈杂的5'端,相对于参考文献,均聚物出现在代表最多的kmers中。修补后使用Canu或MARVEL时,使用读取重叠进行的共识校正可将错误率降低到大约1%。通过对包括Illumina短读数在内的MARVEL修补数据应用proovread,可以实现Nanopore数据中的最低错误率(0.45%),PacBio数据中的最低错误率(0.42%)是修补后通过minimap2对齐进行Canu校正的结果。我们的研究提供了有关长期读取的数据和校正方法的宝贵见解和基准。PacBio数据中的最低错误率(0.42%)是修补后使用minimap2对齐进行Canu校正的结果。我们的研究提供了有关长期读取的数据和校正方法的宝贵见解和基准。PacBio数据中的最低错误率(0.42%)是修补后使用minimap2对齐进行Canu校正的结果。我们的研究提供了有关长期读取的数据和校正方法的宝贵见解和基准。
介绍
测序技术已朝着使用单个分子作为模板的千碱基对(kbp)规模的长测序读取高通量生成的方向发展。对于从头基因组装配和基因预测,此类数据具有重要价值。长读取数据允许相比于短读组件(以获得改善的邻接1),促进结构变体的基因组(之间的检测2,3),并且可以被用来产生全长转录物的序列(4,5)。两个最重要的平台提供商太平洋生物科学公司(PacBio)和牛津纳米孔技术(ONT)(6,7)。所产生的测序读数达到约10-20千碱基(PacBio和ONT)(的峰长度8,9)和2272千碱基对(ONT)(最大长度10)。但是,这样的读取显示出很高的错误率,需要在重新组装之前进行纠正。高度精确的短读测序与同一分子的局部簇同时进行测序,可补偿单个错误或异相模板,并实现极低的错误率(11,12)。
在PacBio单分子实时测序设备上,单个DNA分子固定在零模波导中。添加四个核苷酸,每个核苷酸用不同颜色的荧光团标记。当碱基被DNA聚合酶掺入时,检测到发射的光信号,调用相应的碱基,并切去荧光团。在ONT流通池中,运动蛋白将DNA分子拖曳通过纳米孔。在此过程中测量孔中的电流,并根据电流曲线调用碱。R9.4孔一次提供六个核苷酸(nt)的信号,其中孔中间的中央碱基贡献最大。
在整个测序和碱基检出过程中将监控读取质量及其错误率,然后进行检查。用于质量控制的工具是例如内置在nanopore中的MinKNOW或fastQC(13),提供诸如每碱基质量,读取长度的分布以及过度代表的k-mer的数量之类的度量。利用可用的参考序列,NanoOK(14)可以评估取代,插入和缺失的数量。在目前的状态下,长从约15%(这些平台显示错误率读取15,16),因此具有为了精确地将它们合并成更长的重叠群在组装过程中被校正。
校正的主要方法是使用长时间读取的数据子集或使用额外的短期读取进行共识校正。第一种方法基于所有读取对所有读取重叠在Canu汇编器的校正步骤中应用(17)。也是工具MARVEL(18)使用这种方法,但是前面有一个校正步骤,用于执行读取的“修补”。修补过程应该根据与数据集中其他读取数据的比较来修复大规模错误(例如高度错误的区域,丢失的适配器或丢失的序列信息)。这样做的想法是,将防止在错误的区域读取片段分裂,并且长时间连续的读取片段将保持原样,以允许在组装过程中生成更长的重叠群。第二种方法使用其他高质量的短读数据(例如,由Illumina测序生成的数据),以便基于短读映射来校正长读,如nanocorr(19)或proovread(20)所应用。
对于通过长读重叠进行的一致性校正,必须考虑到误差分布中与设备有关的差异。PacBio测序有望产生具有错误的读段,这些错误在读段上均匀分布(6)。ONT测序结果在均聚物区域特别容易出错,这主要是由于纳米孔的设计。此外,ONT测序的准确性取决于GC含量(19)。通常已经解决了这些差异,例如Canu允许设置参数以指示读取来自哪个测序平台。尽管如此,不同的长距离比对方法对来自不同平台的数据的处理还是更好或更糟(21),可能会引入偏差(22)。当通过将其与参考序列比对(例如,使用mummer(23))或搜索保守基因(例如,使用BUSCO(24))来评估组装的重叠群的质量时,这可能会影响结果。
读取校正高度依赖于所应用的方法及其特定参数,并且由于测序技术和比对方法都在不断发展,因此它正在不断发展。因此,重要的是,不仅要在原始读取中而且还要在组装之前对校正后的读取进行评估,以评估读取质量和错误率。
在这里,我们比较了在两个长时间读取的汇编程序(Canu,MARVEL)中实现的校正步骤,以及使用其他短读取数据(proovread)的校正过程。我们的输入数据是使用PacBio,Oxford Nanopore和Illumina技术从大肠杆菌中产生的。我们比较原始数据和校正后的数据中的错误率和k-mer发生率,并确定读取长度,读取数量和最大匹配长度的变化。我们提供结论,说明如何组合经过测试的校正步骤以实现最低错误率。
材料和方法
输入数据
从公共资源(Illumina数据:NCBI SRA登录号ERX008638)获得了来自大肠杆菌K12菌株MG1655的PacBio长读数据(RS II P6C4化学)和Illumina配对末端数据(2×100 nt,GA IIx仪器)。 ; PacBio数据:https : //github.com/PacificBiosciences/DevNet/wiki/E.-coli-Bacterial-Assembly( 2018年9月6日访问)。
对于大肠杆菌K12菌株DH5α菌株,我们使用牛津纳米孔技术(ONT)及其MinKNOW基本调用者和SQK-RAD004生成了Illumina配对末端数据(2×125 nt,HiSeq 2500仪器)以及长时间读取的数据。测序试剂盒。我们使用R9.4流通池(FLO-MIN106)运行MinION测序仪48小时。使用MinKNOW 1.13.1版执行了基本调用。原始数据已保存在BioProject PRJNA610591,BioSample SAMN14306692下的NCBI测序阅读档案中。
使用minimap2(25)将784×ONT数据和161×PacBio数据的总覆盖率分别与DH5α(NCBI核苷酸登录号CP017100)和MG1655(NCBI核苷酸登录号NC_000913.3)的大肠杆菌参考文献比对。参数–secondary = no -L –MD -x map-ont(或分别为-x map-pb)。对于每个数据集,使用-s 23作为种子的seqtk样本将读取的匹配分数下采样至50x覆盖率进行进一步分析(https://github.com/lh3/seqtk/访问于2016年2月22日)。仅考虑大于200 bp的读数。使用trimmomatic v。0.35(26)和设置ILLUMINACLIP:TruSeq3-PE.fa:2:30:10调整两个菌株的Illumina数据,以得到衔接子序列,并与各自对应使用参数为–nomaqround -v 3 –best的领结(27)进行大肠杆菌参考,并使用seqtk将每个样本的匹配读数下采样为320x覆盖率。
ONT读段的比对表明我们的大肠杆菌K12菌株DH5α的版本与公开标记为“ NEB5-α,K12DH5α的衍生物”的区别在于删除了约1300 bp。为了避免有关错误率的偏见,我们在下采样之前删除了受此删除影响的ONT读数。对于K12亚株MG1655,与参考相比没有发现这种缺失。
K聚体计数
考虑到大肠杆菌基因组的环状特性,使用正向链和反向链使用水母(28)版本2.2.10对参考基因组中的k-mers进行计数(即,k-mers桥接线性末端和起点)也计算了法式串)。原始,修补和校正的读段被视为线性序列。由于MinION装置上的纳米孔测序一次可提供6 nt的信号,因此我们专注于分析大小为k = 6的k-mers 。
序列徽标是通过https://weblogo.berkeley.edu/logo.cgi(于2020年2月6日访问)生成的,带有选项“频率图”。输入分别是ONT或PacBio数据中代表最多的30个六聚体的列表,在生成徽标之前将均聚物从中删除。在PacBio数据的情况下,所有四种均聚物均在前30个过高代表的六聚体中,而在ONT数据的情况下,不包含polyC。因此,分别基于26个六聚体(PacBio数据)和27个六聚体(ONT数据)生成序列徽标。
对准方法
使用NanoOK(14)(版本1.34)进行比对,分别调用方法graphmap(版本0.5.2),last(最后版本921)和minimap2(版本2.12-r827)。对于minimap2,提供测序平台作为参数(-x map-ont,-x map-pb),否则选择默认参数,与初始选择的读数相比,会导致轻微差异。对于graphmap,设置了大肠杆菌基因组的圆形性质的参数(–circular)和–alg anchor。作为第四种方法,blasr(29)(版本5.3)与参数–bestn 1 –hitPolicy randombest –randomSeed 42 –sam –header –printSAMQV一起使用。错误率统计数据是从NanoOK输出中提取的,用于进行mapmap,last和minimap2对齐;blasr输出分析和错误分布的计算均由用python 2.7编写的自定义脚本完成。
校正方法
为了修补和校正ONT和PacBio读数,使用了MARVEL(18)(1.0版,提交1f693baf8420c2121cc40d18ed2088c6e81a713b)。如程序示例文件中所提供的那样,将PacBio和ONT数据的参数应用于大肠杆菌数据。ONT和PacBio数据处理之间的差异在于ONT数据质量修整和固定的较高质量阈值。分别校正进一步校正之前的修补读段(由MARVEL作为中间文件提供)。
Canu(17)(1.6版)的校正步骤同时应用于两个数据集的原始读取和修补读取。Canu为特定的测序数据(nanopore-raw / pacbio-raw)提供了一个参数设置。根据手册的建议设置校正参数(correctedErrorRate = 0.105),这会影响初始校正后组装步骤中的读数。内置的MHAP和minimap2都作为重叠工具使用。
作为混合校正方法,分别使用DH5α或MG1655的Illumina短读数据集将proovread(20)(2.13.11版)应用于原始和补丁读取。
所有程序和分析均在具有128 GB RAM和24-32核的计算机的高性能Linux群集上运行。
结果
原始读取的错误率
使用来自大肠杆菌菌株K12菌株DH5α和MG1655的长读和短读数据进行分析。我们使用牛津纳米孔技术(ONT)和DH5α的Illumina短读数据生成了长读取数据,并从公共来源获得了MG1655的PacBio数据和Illumina数据(图1)。生成的ONT数据包含346 489个读段(3.60 Gbp),对应于大肠杆菌基因组的〜784倍覆盖,平均读长为10377 bp,最大136180 bp。将四个数据集与大肠杆菌对齐后分别使用DH5α或MG1655的两个参考文献,每个参考文献的匹配分数的长读数据的覆盖率仅为50倍,短读数据的覆盖率保持为320倍以进行进一步分析(表1)。
下采样后的初始数据集(仅匹配读取)
技术 | 大肠杆菌菌株 | 读取次数 | 覆盖范围 | 平均读取长度[bp] | 最长读取[bp] |
---|---|---|---|---|---|
ONT(R9.4、1D) | DH5α | 22000 | 50× | 10508 | 136180 |
Illumina HiSeq | DH5α | 11763308 | 320× | 125 | 125 |
PacBio(RS II P6C4) | MG1655 | 26 300 | 50× | 8899 | 42279 |
Illumina GAIIx | MG1655 | 14750994 | 320× | 101 | 102 |
我们基于四种不同比对方法的作图结果,估计了原始读取中的取代,插入和删除的速率。工具blasr(29),graphmap(30),last(31)和minimap2(25)用于将ONT和PacBio读数(各自覆盖50倍)与各自的参考基因组进行比对。比对显示ONT(平均12.56%,标准偏差0.34)和PacBio读数(平均12.88%,标准偏差0.76)的总错误率相似,而特定错误类型的比率在比对工具和测序中有所不同方法(表2)。与ONT数据相比,PacBio数据包含的替换错误率更低,但插入率则更高,并且PacBio读物中的缺失发生频率比ONT读物中的发生频率略低。使用graphmap时观察到最高错误率,而使用last进行ONT读取以及使用minimap2进行PacBio读取则得到最低的错误率。对于这两个数据集,与其他比对程序相比,最后显示出更高的替换率和更低的插入/缺失率。相反,blasr导致较低的替换率和较高的插入缺失率。
从针对E.coli K12DH5α(ONT阅读)和K12 MG1655(PacBio阅读)的原始阅读比对中获得的错误率
数据集 | 对齐工具 | 对齐的读数[%] | 取代度[%] | 插入[%] | 删除[%] | 总误差[%] | 最长完美匹配[bp] | 最长对齐[bp] |
---|---|---|---|---|---|---|---|---|
ONT | bla | 99.76 | 3.50 | 4.01 | 4.94 | 12.45 | 369 | 99183 |
ONT | 图形图 | 99.72 | 4.38 | 3.94 | 4.76 | 13.08 | 373 | 142108 |
ONT | 持续 | 100.00 | 5.12 | 3.23 | 4.00 | 12.35 | 373 | 98422 |
ONT | 小地图2 | 99.83 | 4.33 | 3.59 | 4.47 | 12.39 | 371 | 98780 |
ONT | 平均 | 99.83 | 4.33 | 3.69 | 4.54 | 12.56 | 372 | 109623 |
太平洋生物 | bla | 98.35 | 1.07 | 8.33 | 3.43 | 12.83 | 191 | 42971 |
太平洋生物 | 图形图 | 98.18 | 1.81 | 8.82 | 3.32 | 13.95 | 189 | 49318 |
太平洋生物 | 持续 | 100.00 | 2.07 | 7.40 | 2.89 | 12.36 | 192 | 42468 |
太平洋生物 | 小地图2 | 98.01 | 1.75 | 7.60 | 2.98 | 12.33 | 189 | 42737 |
太平洋生物 | 平均 | 98.89 | 1.68 | 8.04 | 3.16 | 12.88 | 190 | 44373 |
尽管总体错误率相近,但与参考进行映射时,ONT数据在读取匹配长度方面比PacBio数据更好。最长的完全匹配序列和最长的比对在ONT读取中都比在PacBio读取中长约两倍。后者可以归因于PacBio数据中缺少大于42 kbp的读数。
使用graphmap实现ONT数据集的所有比对中最长的一个,将具有较高删除率的最长读取(长度= 136 180 bp)比对到142 108 bp区域。其他对齐工具仅对齐此读取的80 000个碱基,并在一端引入了软剪切。使用数据集的第二个最长读取值(长度= 95 545 bp),graphmap的第二个最长对齐方式是其他三个工具中最长的。所有比对均超出读取长度3.0–3.8%(表2)。
对于PacBio数据,blasr,last和minimap2的比对长度不超过ONT数据中的读取长度。在最长的blasr比对中,数据集中最长的读取(长度= 42279 bp)被延长了700 bp(+ 1.6%)。同样,graphmap提供了最长的对齐方式,并将读取范围扩展了7000 bp(+ 16.6%)。通过所有比对方法将读段映射到参考序列中的同一区域。
评估读取数据中的替换错误对于变量调用尤其重要。我们根据四种不同的比对工具的比对比较了ONT和PacBio读物中的转化和过渡的替代率(图2)。尽管ONT似乎是替代错误的最佳候选者,但PacBio替代似乎更加平衡,但并非完全随机,如先前所假定的那样(6)。在ONT读取中,转换A↔G和C↔T的取代率明显提高。在PacBio读取中,颠换A↔C和G↔T的取代率略有提高。所有测试过的对准工具都证实了这种趋势。
为了进一步评估特定测序技术产生的序列准确性,对参考基因组中的k-mer出现进行了计数,并将其与原始读取数据集中的相应出现进行了比较(图3 和 图3)。补充图S1)。对于'A'和'T'的均聚物而言,纳米孔测序均聚物的已知问题变得显而易见,而'G'均聚物受到的影响较小,而'C'均聚物甚至没有出现在30个最常见的k列表中-mers(表3 和 补充表S1)。实际上,对于所有四种均聚物,PacBio数据也受到均聚物过量代表的影响(表3)。富含T的六聚体在PacBio数据中被高估,但在ONT数据中被低估的六聚体。相比之下,G和C更常出现在ONT数据的六聚体中(图4 和 补充表S1)。
比较参考基因组中的六聚体和ONT(A)和PacBio(B)的原始读取数据集的发生率。斜蓝线代表完美的代表。两条红线表示3倍标准偏差(ONT stddev = 0.0039,PacBio stddev = 0.0066)。
与参考数据相比,原始读取数据集中十个最过量和最不足的六聚体
ONT | 太平洋生物 | |||
---|---|---|---|---|
6聚体 | 利率差异 | 6聚体 | 利率差异 | |
代表过多 | TTTTTT | 0.0573 | TTTTTT | 0.1699 |
AAAAAA | 0.0260 | AAAAAA | 0.0977 | |
加卡 | 0.0224 | GTTTTT | 0.0575 | |
CGGGCG | 0.0221 | TTTTTG | 0.0439 | |
CGGCGG | 0.0186 | GG | 0.0432 | |
中国计算机图形学会 | 0.0174 | 中华总商会 | 0.0341 | |
GC | 0.0169 | TTTTTC | 0.0335 | |
GGGCGG | 0.0166 | TTTTGG | 0.0323 | |
CGGTGG | 0.0164 | TGTTTT | 0.0315 | |
重庆市政府 | 0.0164 | TT | 0.0309 | |
代表性不足 | 大赛 | −0.0347 | 总商会 | −0.0418 |
燃气轮机 | −0.0345 | CCAGCG | −0.0346 | |
卡亚 | −0.0311 | 地方政府 | −0.0334 | |
美国汽车协会 | −0.0292 | 中国农业认证咨询委员会 | −0.0305 | |
AAAAAT | −0.0282 | 食典委 | −0.0278 | |
GAAAAA | −0.0260 | 中国计算机学会 | −0.0272 | |
中国农业机械学会 | −0.0258 | TGCCAG | −0.0263 | |
ACCTGG | −0.0257 | TCGCCA | −0.0263 | |
TAAAAA | −0.0252 | 交流协会 | −0.0263 | |
卡卡格 | −0.0250 | 打击团 | −0.0261 |
代表性不足的六聚体PacBio数据富含C,并且倾向于彼此相邻包含两个C核苷酸(图4 和 补充表S1)。在ONT数据中,代表性不足的六聚体通常由5 nt A或T加上相应的其他三个碱基之一组成(补充表S1)。
通常,ONT上所有六聚体在参考中的出现的标准偏差(stddev)均低于PacBio数据集的标准偏差(ONT:stddev = 0.0039,PacBio:stddev = 0.0066)。
对于大于6的k,在两个原始读取数据集中出现在参考频率较低的k-mer的代表性较高,而在原始读取数据集中出现在参考频率较高的k-mer的代表性不足(补充图S1)。
通过“修补”进行错误分配和纠正
在工具MARVEL(18)的“修补”过程中,将读取结果彼此进行比较,并与适配器序列进行比较,并将高度错误的区域替换为来自数据集其他读取结果的信息。目的是在读取中获得统一的质量,以防止将长读取拆分成较小的片段,这会在切出低质量区域时发生。
我们将MARVEL的修补步骤应用于ONT和PacBio读取的50倍覆盖率数据集,并比较了修补和未修补的读取数据。除了总体错误率略有下降(表4))修补导致读取长度和读取次数的差异。ONT数据中最长的修补读取时间比最长的原始读取时间更长(原始:136 180 bp,已修补:136 895 bp)。在PacBio数据中,最长的修补读段比最长的原始读段短(原始:42 279 bp,修补:41 257 bp)。修补后,ONT数据集中大于20 kbp的读取数从3388增加到3417,在PacBio数据集中从2173减少到2033。修补过程从每个数据集中删除了约4000个长度小于2000 bp的读数,即,从ONT数据中读取的所有数据均短于2000 bp,而从PacBio数据中读取的数据中的98%小于2000 bp。
使用blasr将修补和校正的读段与各自的参考基因组比对后的错误率
未修补 | MARVEL修补 | ||||||||
---|---|---|---|---|---|---|---|---|---|
共识修正 | 没有 | 卡努MHAP | 卡努minimap2 | Proovread | 没有 | 奇迹 | 卡努MHAP | 卡努minimap2 | Proovread |
ONT | ONT | ||||||||
替代 % | 3.50 | 0.20 | 0.19 | 0.25 | 3.19 | 0.21 | 0.17 | 0.16 | 0.10 |
插入% | 4.01 | 0.19 | 0.18 | 0.22 | 3.81 | 0.26 | 0.17 | 0.16 | 0.10 |
删除% | 4.94 | 1.65 | 1.67 | 0.78 | 4.21 | 0.89 | 1.25 | 1.21 | 0.25 |
总误差% | 12.45 | 2.04 | 2.04 | 1.25 | 11.21 | 1.36 | 1.59 | 1.53 | 0.45 |
最长配对(bp) | 369 | 1694 | 1845年 | 84881 | 369 | 1275 | 1819年 | 1833年 | 92302 |
太平洋生物 | 太平洋生物 | ||||||||
替代 % | 1.07 | 0.08 | 0.07 | 0.15 | 0.93 | 0.05 | 0.08 | 0.07 | 0.08 |
插入% | 8.33 | 0.30 | 0.22 | 1.19 | 7.22 | 0.35 | 0.28 | 0.17 | 0.55 |
删除% | 3.43 | 0.26 | 0.24 | 0.23 | 3.02 | 0.21 | 0.26 | 0.18 | 0.09 |
总误差% | 12.83 | 0.64 | 0.53 | 1.57 | 11.15 | 0.61 | 0.62 | 0.42 | 0.72 |
最长配对(bp) | 191 | 14682 | 14756 | 33315 | 191 | 4398 | 18450 | 12712 | 39811 |
MARVEL修补仅稍微改变了ONT数据中非均聚物六聚体的发生率(修补读取和原始读取之间的stddev = 0.0003)和PacBio数据(stddev = 0.001)(补充图S2)。但是,由于打补丁,过量代表的均聚物数量减少了。
我们评估了沿读取的错误分布是否存在偏差,并比较了修补后的错误分布。考虑到读取长度超过7500 bp的位置1–7500,我们发现对于两种类型的测序数据,置换,插入和缺失均与5'端杂乱地分布得相当均匀(图5)。ONT数据中的错误率大约为4%(替换,删除)和4.5%(插入)。在PacBio中,错误类型之间的较大差异在错误分布中变得很明显,替换范围约为1%,删除范围约为3%,插入范围约为8%。此外,在读取开始时,PacBio数据中的插入显示出较高的错误峰。在进行MARVEL修补后,错误率沿读取值仅略有下降(图5)。)。
沿原始PacBio读段(绿色)和原始ONT读段(紫色)的错误分布,表示替换(A,D),删除(B,E)和插入(C,F)。MARVEL修补后(粉红色),错误率略有降低。对于读取长度超过7500 bp的位置1–7500,在长度为1 kbp且重叠0.5 kbp的滑动窗口中确定错误率。误差线显示每个窗口的标准偏差。
共识修正
提高长读质量的主要步骤是基于读重叠以产生校正的共有序列。由于MARVEL的修补步骤仅影响读取的特定区域,因此我们测试了未修补和修补的读取数据集作为共识校正的输入(图6)。比较了三种共识校正方法:Canu(17),MARVEL和proovread(20)(图7)。
将ONT读数与大肠杆菌DH5α参考序列的两个示例区域进行比对,作为原始读数并在应用校正步骤后进行。红色星号表示删除,红色字符表示插入,红色突出显示的字符表示不匹配。左侧:位置1816110–1816169,右侧:位置1813540–1813599。参考:参考,原始:原始读取,mp:MARVEL修补,cmh:Canu MHAP,cmm:Canu minimap2,pr:proovread。
Canu和MARVEL仅使用长读取数据集执行一致性校正,而proovread使用互补的Illumina测序数据。与诸如Quiver / Arrow(https://github.com/PacificBiosciences/GenomicConsensus于2019年10月30日访问)或Pilon(32)的抛光工具应用于组装后的重叠群相比,proovread使用Illumina数据将它们与未组装的原始读数进行匹配。
Canu和MARVEL这两种长期只读的校正方法分别将ONT读取的总错误率平均从12.45降低到1.71%,PacBio读取的错误率分别从12.83降低到0.56%(表4)。设置了数据来源的Canu参数(-pacbio-raw,-nanopore-raw),并且似乎比ONT数据更适合PacBio数据。校正后的ONT读取中较高的剩余错误率主要是由于缺失,与校正后的PacBio读取中的0.23%的删除率相比,平均删除率只能降低至1.33%。Canu内部使用的两个不同的对齐程序MHAP(33)和minimap2(25)产生相似的结果,因此基于minimap2的共识校正比基于MHAP比对的校正产生的错误率略低(对于修补后的PacBio读数,校正率最高为0.2%,请参见表4)。
使用额外的Illumina测序数据进行校对校正后,ONT的错误率分别为0.85%,PacBio的错误率分别为1.15%。因此,有趣的是,对于ONT数据,短读校正后的错误率比仅使用长读低,但是对于PacBio数据,短读校正后的错误率比长读后更高。与Canu和MARVEL相比,带有proovread的短读数据在ONT数据删除中的错误率最低。与长读校正相比,短读校正后PacBio数据的插入率保持最高(表4)。
经过Canu和proovread的共识校正后,读数的错误率(未修补的原始输入数据)的错误率相当均匀地分布,除了PacBio插入错误的proovread校正显示出更强的变化(图8)。
沿未修补PacBio和ONT误差分布之前(绿色和紫色,分别地)读出并之后Canu酒店((粉红色)共识校正甲- ˚F)或proovread(g ^ -大号),用于取代,缺失和插入。如图5分析读取。
短读校正后,最长的完美匹配的长度急剧增加。经过长时间阅读校正后,PacBio最长的原始读段完美匹配(191 bp)增加了4至18 kbp之间的长度,具体取决于纠正方法,但短读校正获得的最长完美匹配为33至40 kbp。这种差异在ONT数据上更加明显,最长的完美原始数据匹配长369 bp,经过长时间阅读校正后平均增加到1693 bp(范围1275–1845 bp),并增加到85 kbp(未打补丁的ONT输入)和92短读校正后分别为kbp(修补的ONT输入)。
经过MARVEL校正后,我们发现平均读取长度增加,读取数量减少。MARVEL校正开始于基于充分支持的重叠来连接读取。这将生成一组扩展读取,并且校正后的读取数量远小于初始输入读取的数量。对于ONT,MARVEL将17934个补丁读取的数目减少为110个串联读取,总共包含6430965个碱基。读取的平均长度从10508 bp增加到58463 bp。对于PacBio,22 586个修补读取的数量减少到285个串联读取(总计6 889 188 bp),读取的平均长度从8899 bp增加到24 172 bp。这两种测序技术的串联读取结果集的错误率均低于Canu校正的读取率,4)。
通常,使用所有校正方法,将修补读取的数据作为输入导致的错误率低于未修补读取的数据。对于ONT数据和PacBio数据都可以观察到这一点。
在修补阶段,MARVEL删除了大多数少于2000 bp的读数。在校正过程中,从数据集中删除了进一步的读数。Canu从ONT数据中删除了大多数长度<7500 bp的原始读取,并从PacBio数据中读取了<4500 bp。从修补的读取中,Canu分别从ONT数据中删除了<8000 bp的读取和从PacBio数据中读取了<5500 bp的读取。在proovread校正过程中,仅从PacBio原始读取中删除了读取,大多数这些读取的读取的长度低于10 kbp(图9)。对于ONT和修补的读取,proovread不会删除任何读取。
校正后的K-mer发生
不出所料,校正后的读数中k-mer的出现与参考的k-mer组成的相关性比没有校正的要强得多。使用Illumina数据通过校对进行校正,在两个数据集中均类似地很好地改善了k-mer发生,在ONT中比在PacBio读取中略好(图10)。ONT数据的这种轻微优势主要是由于PacBio数据中剩余的超量均聚物。与ONT数据相比,PacBio数据中的Canu校正可产生更多的正确k-mers。对于ONT读取,在Canu校正后,参考基因组中出现的许多六聚体也存在于原始数据中,其数量减少了。有一种趋势是原读中已经略有不足的六聚体被Canu校正所耗尽(图11)。Canu校正仅将这些代表性不足的六聚体中的少数几个改变为正确的表现形式,这在Canu支持的比对方法(MHAP或minimap2)以及未修补和修补的输入读取中均可以观察到。在数量上,在Canu校正步骤之后,4096个ONT六聚体中的61个(占1.48%)发生在距离对角线(=完美表示)更远的3 * stddev处。
与参考相比,用proovread和Canu(MHAP)校正后的六聚体的频率分别在ONT读数(左)和PacBio读数(右)中进行。使用未修补的输入读取。斜蓝线代表完美的代表。两条红线表示3倍标准差(proovread:ONT stddev = 0.0004,PacBio stddev = 0.0017,Canu:ONT stddev = 0.0035,PacBio stddev = 0.0005)。
讨论
随着第三代测序数据中扩展读取长度的发展,在处理长读取数据时,高错误率成为主要挑战。与先前的研究一致,我们在PacBio和ONT原始数据中观察到总错误率约为13%。分别评估替代率和插入/缺失率时,根据对中工具的不同,我们获得的结果略有不同。同样,比对读取的总数和最长比对的长度取决于比对方法的选择。考虑到所有方法的平均值,我们发现ONT数据中每种类型的错误(取代,插入,删除)的错误率约为4%(±0.5%),而PacBio数据显示较低的替代率(1.7%),中等删除率(3.2%)和高插入率(8.0%)。ONT数据与PacBio数据之间的另一个区别是取代的类型:跃迁(A↔G,C)T)是ONT数据中最突出的取代,而颠换(A↔C,G↔T)在PacBio数据中则升高。在这两个数据集中,均聚物均是代表最多的六聚体之一。在PacBio数据中,四种均聚物出现在最多代表的六聚体列表中的位置1(polyT),2(polyA),5(polyG),6(polyC)。在ONT数据中,polyA和polyT在前两个位置,而polyG在第13位,而polyC 6-mer在列表中的位置974远处向下,即是唯一接近完美表示的均聚物。在ONT和PacBio数据之间,过度代表的六聚体的序列组成也明显不同:
在以各种组合应用修补(MARVEL),共识校正(Canu,MARVEL)和短读辅助校正(proovread)之后,我们发现(i)修补后的输入数据实现的错误率比未修补后的输入数据低,(ii)读取的共识校正比PacBio数据的短读取辅助校正实现的错误率更低;(iii)短读取辅助的校正比ONT数据的长时间读取的共识纠正实现的错误率更低;(iv)Canu的PacBio数据MARVEL修补后的共识校正比MARVEL修补后的MARVEL校正更低,因此使用minimap2的Canu的误差率低于使用MHAP作为对齐方法的Canu。
无论使用修补还是未修补的输入数据,应用于PacBio数据的长期共识校正方法都会导致错误率低于1%。对于ONT数据,只有通过使用带有proovread的附加Illumina数据并且仅适用于修补的输入数据,才能实现低于1%的错误率。
使用MARVEL修补后的proovread,ONT数据的最低错误率为0.45%。MARVEL修补后,使用Canu和minimap2对PacBio数据的最低错误率是0.42%。
PacBio数据获得的校正后错误率与使用PacBio高保真数据进行自我校正后获得的错误率相似(34)。与PacBio相比,如今即使对于基因组模板而言,创建循环共有序列也是一种选择,而ONT测序读取则不存在这种可能性。
综上所述,我们提供了对分别由PacBio和ONT测序平台生成的嘈杂的长时间读取数据所应用的不同校正程序的结果的评估。为了从长测序读取中获得最大收益,校正读取非常重要。我们的研究为未校正和校正后的测序读段的特征提供了宝贵的见解,并展示了如何使用不同的校正方法实现最低错误率。
补充数据
补充数据可从NARGAB在线获得。
资金
没有外部资金。
利益冲突声明。没有声明。
笔记
现在的地址:菲利普·彼得斯,下一代测序设施,维也纳生物中心核心设施,(VBCF),博尔-加瑟博士3,1030维也纳,奥地利。