基于第三代测序技术的基因组组装方法及其在烟草中的应用

基于第三代测序技术的基因组组装方法及其在烟草中的应用

卢鹏, 金静静, 李泽锋, 曹培健, 范楷, 许亚龙     

摘要:第三代测序技术凭借着片段读长更长的优势在基因组研究中得到广泛应用。为此,回顾了测序技术的发展,总结了三代测序技术的优缺点,重点对第三代测序技术的基因组组装方法,包括数据预处理、序列组装、组装之后的序列修补和序列的染色体定位方法进行了追踪和统计,同时介绍了测序技术和基因组组装方法在烟草基因组研究中的应用。

关键词:第三代测序    基因组    组装    烟草    

Genome assembly based on the third-generation sequencing technology and its application in tobacco

LU Peng, JIN Jingjing, LI Zefeng, CAO Peijian, FAN Kai, XU Yalong     

Abstract: The third-generation sequencing technology has been widely used in genome research due to its advantage of long-fragment reads. The development of the sequencing technology was reviewed and the advantages and disadvantages of three different generations of sequencing technologies were summarized. Based on the third-generation sequencing, the methods of genome assembly including data pre-processing, sequence assembly, sequence repairing after assembly and chromosome localization methods were tracked and statistically analyzed. Application of sequencing technology and genome assembly in tobacco genome research was introduced.

Key words: Third-generation sequencing     Genome     Assembly     Tobacco    

经过多年的发展,基因测序已成为获取生物基因组数据的重要技术手段,在生物学研究领域得到广泛应用。随着测序数据量的不断增加,基因组组装方法的改进也逐渐成为研究的热点。为及时了解相关技术的发展,回顾了历代测序技术和组装方法,重点对第三代测序技术的基因组组装方法进行了阐述,同时介绍了其在烟草基因组研究中的应用。

1 DNA测序技术的发展概况

自1909年“基因”这一概念提出之后,基因研究就开始成为生命科学的重要组成部分。尤其是Watson和Crick提出DNA双螺旋结构之后[1],DNA的研究就进入了快速发展时代,使DNA测序技术得到了飞速发展。1954年,Whitfeld[2]测定多聚核糖核苷酸序列的方法被认为是早期的DNA测序方法。而测序技术真正成熟的标志是以1977年Sanger的双脱氧链终止法[3]和Maxam-Gilbert的化学降解法[4]为代表的第一代测序技术的出现。Sanger测序技术操作快速、简单,应用较为广泛,Maxam-Gilbert测序技术重复性较高,可对未经克隆的DNA片段进行直接测序,多用于表观遗传学方面的研究[5]。而成本高、通量低的缺点使第一代测序技术更多地应用于基因组较小的细菌中,如φX174噬菌体[6]、流感嗜血细菌[7]等。

第二代测序(又称下一代测序,Next-generation sequencing,NGS)技术则完美地弥补了第一代测序技术通量低的不足。第二代测序技术的准确率可达99.9%,并且一次能完成几十万到几百万的DNA片段测序,这使其能应用于基因组较大的物种,如拟南芥[8]、水稻[9]、黑猩猩[10]等。第二代测序技术以Roche公司的454测序技术[11]、Illumina公司的Solexa测序技术[12]和ABI公司的SOLID测序技术[13]为代表。第二代测序技术也存在明显的缺点,即测序读长较短。第一代测序技术的读长普遍能达到600~1 000 bp,在第二代测序技术中,Illumina公司的Solexa测序技术平均读长只有100 bp[14],读长最长的Roche公司的454测序技术也只能达到700 bp[15]。尽管后来这些公司都在不断完善测序技术,提高测序长度,但是其平均测序长度仍未能达到第一代测序水平,该问题给后续的数据组装及分析工作带来了巨大的困难。

第三代测序技术(Third-generation sequencing, TGS)改变了第一代和第二代测序技术的测序模式,使用全新的单分子测序技术。第三代测序技术具有测序读长长、通量高等优点。该技术以PacBio公司的SMRT测序技术[16]和Oxford公司的蛋白纳米孔测序技术为代表[17],其中较为成熟且市场占有率较高的是SMRT测序技术。PacBio公司的SMRT测序技术其测序平均读长为10~15 kb, 最大读长可达64.5 kb[18],已应用于多个物种的基因组测序,如大肠杆菌[19]、Rsphaeroides[20]、Spneumonia[20]、Mruber[20]、Rheparinus[20]、拟南芥[21]和藜木[22]等。需要指出的是,第三代测序技术的准确率明显低于前两代。如使用PacBio公司的SMRT测序技术对连续长序列进行测定时,准确率在85%左右,较第一代和第二代99.9%的测序准确率明显降低。通常需要增加测序深度和后期软件纠错来控制错误率,这在一定程度上增加了第三代测序的使用成本和技术难度。针对上述缺点,研究人员对该技术不断进行完善和优化,使第三代测序技术在基因组测序、甲基化、突变体鉴定、RNA测序和转录组学等方面[23-24]得到广泛应用。

目前,摒弃光信号而使用纳米孔测序技术,借助于纯物理学的电信号变化来进行检测的第四代测序技术已开始见诸文献[25]。该技术集读长长、通量高、成本低、速度快、准确率高等各种优势于一体,理论上能够弥补前三代测序技术的各种不足。目前,第四代测序技术还存在着一些问题,经过不断的完善,预计在不久的将来就能实现大规模应用。

经过30多年的发展与变革,测序技术已经历了四代的发展和演变。由于第四代测序技术仍在研究和完善中,距其应用尚有距离,目前主流的测序方法仍然是以第二代和第三代测序技术为主。第二代测序技术凭借着高通量、高准确率及其在测序仪器市场上份额大的优势,仍广泛应用于各研究领域。第三代测序技术具有独特的优势,凭借着科研人员最为青睐的超长读长,迅速在测序方面得到了大量应用。由于第三代测序技术测序准确率较低,还未发挥出其独特的科学和技术优势,但是随着其不断地完善,优势会越来越明显。

2 基于第三代测序技术基因组组装方法的研究进展

基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads之间的重叠区域对片段进行拼接,先拼接成较长的连续序列(contig),再将contigs拼接成更长的允许包含空白序列(gap)的scaffolds,通过消除scaffolds的错误和gaps,将这些scaffolds定位到染色体上,从而得到高质量的全基因组序列(图 1)。

图 1 基因组测序组装过程Fig. 1 Process of genome sequencing and assembly
 

随着第三代测序技术的不断成熟,对其组装方法的研究也越来越多。第三代测序技术组装的过程一般包括reads数据纠错、组装、组装之后的序列修补以及最后的scaffolds锚定。由于第三代测序准确度较低,要保证最后的组装质量,通常需要较深的测序深度,并在组装之前对其进行纠错。在完成纠错之后通过组装工具对片段进行组装得到基因组序列,这个过程也是组装技术的研究重点。由于基因组测序的深度、测序技术的准确度以及重复序列等多种因素的影响,组装完成之后得到的序列也可能存在着各种错误,还需要对其进行修补(包括填补gap和纠错等),才能得到质量较高的基因组序列。

2.1 数据预处理

不论是第二代测序还是第三代测序,其原理都是将整个基因组随机打散成为小片段,然后进行单端或者双端测序。理论上看,如果测序深度足够高,就可以完全弥补测序技术上出现的误差。如PacBio公司的SMRT测序技术最明显的缺点是单核苷酸检测的准确率不高,为85% ~89%,其原因是在测序过程中某些特异性荧光信号较弱,导致随机错误的产生,但可通过提高检测深度来提高测序准确率。为了保证组装质量,现有很多第三代组装软件都建议使用较高的测序深度,如DBG2OLC的建议测序深度为50~100×[26]。由于提高测序深度成本太高,无限制提高测序深度显然不现实,而且最终的数据运算量会非常大,科学家们通常会在测序覆盖度、测序成本以及最后的数据组装质量之间进行权衡。

为避免测序错误对后续组装的影响,在组装之前需要对第三代测序数据进行纠错。总体来说,第三代测序数据的纠错有两种方法,一种是利用高质量的二代数据对第三代数据进行纠错,PacbioToCA[27]、LSC[28]和Jabba[29]等软件支持这种方法。另一种是利用高深度的第三代测序数据进行自身纠错,PacbioToCA[27]、Canu[30]、proovread[31]和LoRDEC[32]等软件支持这种方法。经过纠错之后的第三代数据可以大幅降低错误率。2013年Seung等[33]通过PBcR软件,使用50×Illumina第二代数据对25×PacBio第三代数据进行纠错,纠错之后的第三代数据准确率超过了99.9%。这些纠错过程普遍存在难以适用于基因组较大物种的问题。显而易见,基因组越大,需要进行纠错的时间就越长,产生的中间结果文件就越大,有的纠错时间长达几个月,中间文件规模达到十几个Tb,这已超出科研人员可以接受的范围。

2.2 基于第三代测序数据的组装方法

基于第二代高通量测序的组装方法主要有3种[34]:Greedy-extension(GE)方法、Overlap-LayoutConsensus(OLC)法和de Bruijn(DBG)法,其中又以de Bruijn法应用较为广泛。基于这些方法开发出很多软件,如Velvet[35]、SOAPdenovo[36]、AbySS[37]等。第三代数据和第二代数据结构较为相似,第三代测序数据组装的方法主要是在第二代测序数据组装方法的基础上进行改进,大多使用的也是OLC、de Bruijn等方法,基于这些方法开发的软件有PacbioToCA[27]等,还有一些软件是利用这些方法产生的数据进行组装,如Canu[30]等。这样就能尽量弥补第三代测序数据准确率较低的不足,从而提升组装之后基因组的准确率。

利用第二代数据和第三代数据进行混装(Hybrid assembly),这种方法充分发挥了第二代数据质量高和第三代数据片段长的优势,组装出来的结果质量普遍比较高。混装有两种策略,一种是先使用de Bruijn法将第二代的短片段组装成contig,然后利用能够跨越多个contigs的第三代长片段来建立scaffolds,如AHA [38]、SSPACE-LongRead [39]和ALLPATHS-LG[40]等软件支持这种方法。另一种是先用第二代数据对第三代片段进行纠错,然后将第三代长片段组装成contigs,最后基于第二代的mate-paired数据生成scaffolds,如Pilon[41]软件支持该方法。2016年Jeong-Sun等[42]使用后一种方法完成了韩国人基因组的组装,组装完成之后的contigs和scaffolds N50分别达到17.9 Mb和44.8 Mb。

数据组装是整个基因组组装过程中最重要的过程,数据组装的方法以及软件的效率很大程度上决定了基因组组装质量。第二代组装方法研究时间较长,各类方法和软件也较为成熟。但随着第三代组装方法研究的不断深入,涌现了大量组装方面的软件(表 1)。

表 1 第三代主流测序数据组装软件①Tab. 1 Main assembly software for third-generation sequencing

2.3 对基因组序列进行修补

由于测序技术以及组装方法的局限性,导致第二代和第三代测序序列组装后的结果或多或少地存在错误信息,主要包括gap、碱基测错、碱基的插入和缺失等[43]。在组装过程中难以把这些错误信息全部消除,所以组装完成之后需要对组装结果进行gap填补以及纠错工作。

2.3.1 gap填补

在已完成测序的生物基因组中,gap普遍存在。2008年1月到2014年5月,从GenBank释放出的5 276个生物基因组序列中,只有32%(1 692个)是完整的基因序列[44]。因此,填补这些gap可以提升基因组序列的完整性。目前,填补第二代基因组序列gap的方法主要有4种[45]:多软件组装、结合参考序列互补gap、多平台数据组装填补gap和在gap两端进行PCR扩增(表 2)。一些微生物基因组通过上述方法已经对所有gap完成了填补,得到了完整的基因组序列。

表 2 Gap填补方法使用情况Tab. 2 Usage of gap closing methods

近两年来,在gap填补方面出现了新方法—数据混装填补gap,即利用第三代数据来填补第二代基因组序列的gap(表 2)。这种方法主要发挥了第三代数据读长长的优势,利用第三代reads去覆盖整个包含gap的第二代片段,以达到填补的效果。根据这种方法,日本科学家Kosugi等[46]开发了GMcloser软件,并取得了不错的填补效果。因此,基因组较大的作物,由于其gap数量较多,可使用数据混装填补gap的方法。

2.3.2 组装结果的纠错

纠错主要是对组装之后的基因组进行矫正分析去除错误信息。主要包括两种方法,一种是使用测序数据进行纠错,另一种是借助光学图谱等其他技术手段进行纠错。测序数据纠错主要是使用第二、第三代的组装数据,此方法已经开发了很多软件,如Pilon[41]、Celera Assembler[50]等,可用于各种大小基因组的组装、纠错,但对数据组装质量要求较高,如果用于纠错的contig质量不好会对纠错效果产生较大影响。近年来,光学图谱技术作为基因组测序的一种新的辅助手段,凭借高效、准确的优势,在基因组组装结果验证、纠错方面取得了较好的效果[51]。该方法依靠光学热成像图谱,获得数据较为快捷、高效,较多应用于基因组较小的微生物基因组研究中。

2.4 Scaffolds的染色体定位

在得到质量较高的scaffolds之后,一部分基因组进行了scaffolds的染色体定位,还有一部分则停留在scaffold甚至是contig的组装水平上。NCBI (https://www.ncbi.nlm.nih.gov/assembly/?term=genome)中的数据显示(表 3),截至2017年8月14日,基因组较大的物种,如动物、植物、细菌和真菌等大部分停留在contig和scaffold的组装水平上,仅有少数物种的基因组进行了染色体定位,个别物种得到了完整的基因组;而基因组较小的物种,如病毒基本上得到了完整的基因组。

表 3 不同物种基因组组装情况Tab. 3 Genome assembly of various species

已有的scaffolds锚位方法主要有3类,分别是基于物理图谱、基于遗传图谱和基于染色质构象捕获技术(Hi-C)。其中,基于物理图谱锚位主要是通过构建BAC文库,利用序列重叠群之间的关系来进行scaffolds定位[52];基于遗传图谱锚位主要是利用细胞减数分裂,非同源染色体上的基因间相互独立、自由组合,同源染色体上的基因发生交互和重组的原理来进行scaffolds定位[53];而Hi-C技术则是通过构建染色质的三维结构,利用染色质片段间的交互强度随距离衰减的原理进行scaffolds定位[54]。近年来,Hi-C技术凭借比物理图谱和遗传图谱方法更高的覆盖率、可靠性、准确性和操作简便性,在基因组组装方面得到了广泛的应用。作为辅助手段应用于人类、小鼠、果蝇、拟南芥、酵母以及其他微生物的基因组组装中[54]。

通过基因组测序、数据预处理、基因组组装和组装结果修补以及染色体定位等一系列步骤,通常都会得到质量比较理想的基因组序列,对于一些基因组较小的微生物,甚至能获得完整的基因组全长。目前,整个基因组组装方面面临的问题较多,还没有一种方法能够适用于所有物种,但随着组装技术的不断完善,基因组组装质量也在不断提升。

3 第三代测序及组装技术在烟草基因组研究中的应用

烟草属于茄科烟草属,共有76个种[55]。目前推广最为普遍、经济价值最大的栽培品种是普通烟草,它由两个二倍体野生烟草(林烟草和绒毛状烟草)种间杂交后,染色体加倍进化而来。

2003年,美国北卡罗来纳州立大学启动了烟草基因组测序计划,烟草基因组系统化研究由此开始。2006年,中国烟草基因组计划首先出现在《烟草行业中长期科技发展规划纲要(2006—2020年)》中。目前已完成基因组测序组装的烟草有本氏烟(Nicotiana benthamiana)、绒毛状烟草(Nicotiana tomentosiformis)、林烟草(Nicotiana sylvestris)、栽培烟草(Nicotiana tabacum)、渐狭叶烟草(Nicotiana attenuata)和欧布特斯烟草(Nicotiana obtusifolia)等。

本氏烟测序时间较早,对其基因组进行了63×第二代测序和组装,最终得到的基因组大小为3 Gb,scaffold N50长度为89 kb[56]。在2011年,我国完成了绒毛状烟草、林烟草的第二代测序和组装[57],分别进行了250×和270×高深度测序,组装完成后,两个烟草的基因组大小均为2.4 Gb,contig N50均超过20 kb,scaffold N50均超过350 kb,重复序列比例分别达到74%和75%。2011年,还完成了栽培烟草的第二代测序和组装[58],测序深度为438 ×,组装完成后,基因组大小为4.41 Gb,contig和scaffold N50长度分别为41.5 kb和1 615 kb。

渐狭叶烟草和欧布特斯烟草这两个野生烟草基因组在2017年初完成组装并公开发表[59],其中渐狭叶烟草使用了30×Illumina第二代数据、4.5× 454第二代数据和10×PacBio第三代数据,通过第二、第三代数据混装的方法完成了基因组的组装,基因组大小为2.5 Gb,contig和scaffold N50的长度分别为90.4 kb和524.5 kb,而且还完成了scaffolds的染色体定位。另一个野生烟草欧布特斯烟草使用了50×Illumina第二代数据、4.5×454第二代数据和10×PacBio第三代数据,也是通过第二、第三代数据混装的方法完成了基因组的组装,基因组大小为1.5 Gb,contig和scaffold N50的长度分别为59.5 kb和134.1 kb。

综上,在已完成基因组测序及组装的烟草中,只有渐狭叶烟草和欧布特斯烟草两个野生烟草进行了第三代测序,使用的是第二、第三代数据混装的方法,其他烟草基因组则使用的是第二代测序技术和组装方法。

4 展望

经过多年的发展,第二代测序技术已经形成了较为成熟的方法和流程,针对第二代测序本身存在的问题以及延展下来的组装、分析等生物信息学问题,难以有更大的技术突破。而第三代测序技术本身还在不断完善中,单纯依靠第三代测序技术得到质量较好的基因组组装结果,需对技术和资金有更高的要求。每一代测序技术都有自己的优点和缺点,仅使用某一代测序技术对基因组数据进行组装和修补,往往具有一定的局限性。目前,更多的物种是将第二、第三代测序技术测得的数据混装进行基因组组装,利用混装技术可以弥补单代测序数据组装技术的缺点,从而有效提升基因组的精准度。

二倍体野生烟草(绒毛状烟草、林烟草、渐狭叶烟草和欧布特斯烟草)基因组大小均约为2.5 Gb,四倍体栽培烟草的基因组大小约为4.41 Gb。烟草较大的基因组、基因组中较高的重复序列比例以及第二代测序技术的局限将会对进一步提升烟草基因组的精准度带来较大的困难。如果单纯使用第三代测序数据进行组装,则需要较高的测序深度和计算资源,其测序成本和组装成本也自然相对较高。因此,参照渐狭叶烟草和欧布特斯烟草基因组组装的方法,使用30×以上的二代数据和10~30×第三代数据混装来提高基因组的组装质量。基因组组装完成后,可再次利用第三代数据对基因组进行修补和完善。最后通过Hi-C技术将scaffolds锚定到染色体上,从而进一步提升烟草基因组的组装水平。

随着基因组测序及组装研究的不断深入,测序技术正朝着操作更简便、速度更快、成本更低、精准度更高的方向发展,组装出来的基因组精度也将进一步提升。

参考文献(References)

[1]

Wilkins M H F, Stokes A R, Wilson H R. Molecular structure of nucleic acids:molecular structure of deoxypentose nucleic acids[J]. Nature, 1953, 171(4356): 738-740. DOI:10.1038/171738a0

[2]

Whitfeld P R. A method for the determination of nucleotide sequence in polyribonucleotides[J]. Biochemical Journal, 1954, 58(3): 390-396. DOI:10.1042/bj0580390

[3]

Sanger F, Nicklen S, Coulson A R. DNA sequencing with chain-terminating inhibitors[J]. Proceedings of the National Academy of Sciences of the United States of America, 1977, 74(12): 5463-5467. DOI:10.1073/pnas.74.12.5463

[4]

Maxam A M, Gilbert W. A new method for sequencing DNA[J]. Proceedings of the National Academy of Sciences of the United States of America, 1977, 74(2): 560-564. DOI:10.1073/pnas.74.2.560

[5]

刘振波. DNA测序技术比较[J]. 生物学通报, 2012, 47(7): 14-17.
LIU Zhenbo. Comparison of DNA sequencing techniques[J]. Bulletin of Biology, 2012, 47(7): 14-17.

[6]

Sedat J, Ziff E, Galibert F. Direct determination of DNA nucleotide sequences. Structure of large specific fragments of bacteriophage φX174 DNA[J]. Journal of Molecular Biology, 1976, 107(4): 391-416. DOI:10.1016/S0022-2836(76)80074-5

[7]

Fleischmann R D, Adams M D, White O, et al. Wholegenome random sequencing and assembly of Haemophilus influenzaeRd[J]. Science, 1995, 269(5223): 496-512. DOI:10.1126/science.7542800

[8]

The Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana[J]. Nature, 2000, 408(6814): 796-815. DOI:10.1038/35048692

[9]

高阳, 薛大伟, 钱前, 等. 二代测序技术在水稻基因组学和转录组学研究中的应用[J]. 中国水稻科学, 2015, 29(2): 208-214.
GAO Yang, XUE Dawei, QIAN Qian, et al. Application of the second generation sequencing technology in rice genomics and transcriptomics[J]. Chinese Journal of Rice Science, 2015, 29(2): 208-214.

[10]

The Chimpanzee Sequencing and Analysis Consortium. Initial sequence of the chimpanzee genome and comparison with the human genome[J]. Nature, 2005, 437(7055): 69-87. DOI:10.1038/nature04072

[11]

Margulies M, Egholm M, Altman W E, et al. Genome sequencing in open microfabricated high density picoliter reactors[J]. Nature, 2005, 437(7057): 376-380. DOI:10.1038/nature03959

[12]

Fedurco M, Romieu A, Williams S, et al. BTA, a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies[J]. Nucleic Acids Research, 2006, 34(3): e22. DOI:10.1093/nar/gnj023

[13]

Shendure J, Porreca G J, Reppas N B, et al. Accurate multiplex polony sequencing of an evolved bacterial genome[J]. Science, 2005, 309(5741): 1728-1732. DOI:10.1126/science.1117389

[14]

张丁予, 章婷曦, 王国祥. 第二代测序技术的发展及应用[J]. 环境科学与技术, 2016, 39(9): 96-102.
ZHANG Dingyu, ZHANG Tingxi, WANG Guoxiang. Development and application of second-generation sequencing technology[J].Environmental Science & Technology, 2016, 39(9): 96-102.

[15]

Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Science, 2009, 323(5910): 133-138. DOI:10.1126/science.1162986

[16]

Pacific Biosciences of California. Inc. USA on world wide web URL[EB/OL]. [2017-05-20]. http://www.pacb.com/science/smrt-sequencing/.

[17]

Clarke J, Wu H C, Jayasinghe L, et al. Continuous base identification for single-molecule nanopore DNA sequencing[J]. Nature Nanotechnology, 2009, 4(4): 265-270. DOI:10.1038/nnano.2009.12

[18]

Rhoads A, Au K F. PacBio sequencing and its applications[J]. Genomics, Proteomics & Bioinformatics, 2015, 13(5): 278-289.

[19]

Rasko D A, Webster D R, Sahl J W, et al. Origins of the Ecoli strain causing an outbreak of hemolyticuremic syndrome in Germany[J]. The New England Journal of Medicine, 2011, 365(8): 709-717. DOI:10.1056/NEJMoa1106920

[20]

Liao Y C, Lin S H, Lin H H. Completing bacterial genome assemblies:strategy and performance comparisons[J]. Scientific Reports, 2015, 5: 8747. DOI:10.1038/srep08747

[21]

Kim K E, Peluso P, Babayan P, et al. Long-read, whole-genome shotgun sequence data for five model organisms[J]. Scientific Data, 2014, 1: 140045. DOI:10.1038/sdata.2014.45

[22]

Jarvis D E, Ho Y S, Lightfoot D J, et al. The genome of Chenopodium quinoa[J]. Nature, 2017, 542(7641): 307-312. DOI:10.1038/nature21370

[23]

张得芳, 马秋月, 尹佟明, 等. 第三代测序技术及其应用[J]. 中国生物工程杂志, 2013, 33(5): 125-131.
ZHANG Defang, MA Qiuyue, YIN Tongming, et al. The third generation sequencing technology and its application[J]. China Biotechnology, 2013, 33(5): 124-131.

[24]

曹晨霞, 韩琬, 张和平. 第三代测序技术在微生物研究中的应用[J]. 微生物学通报, 2016, 43(10): 2269-2276.
CAO Chenxia, HAN Wan, ZHANG Heping. Application of third generation sequencing technology to microbial research[J].Microbiology China, 2016, 43(10): 2269-2276.

[25]

陈文辉, 罗军, 赵超. 固态纳米孔:下一代DNA测序技术-原理、工艺与挑战[J]. 中国科学:生命科学, 2014, 44(7): 649-662.
CHEN Wenhui, LUO Jun, ZHAO Chao. Solid-state nanopore:the next-generation sequencing technology-principles, fabrication and challenges[J]. SCIENTIA SINICA Vitae, 2014, 44(7): 649-662.

[26]

Ye C X, Hill C M, Wu S G, et al. DBG2OLC:efficient assembly of large genomes using long erroneous reads of the third generation sequencing technologies[J]. Scientific Reports, 2016, 6: 31900. DOI:10.1038/srep31900

[27]

Koren S, Schatz M C, Walenz B P, et al. Hybrid error correction and de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7): 693-700. DOI:10.1038/nbt.2280

[28]

Au K F, Underwood J G, Lee L, et al. Improving PacBio long read accuracy by short read alignment[J]. PLoS One, 2012, 7(10): e46679. DOI:10.1371/journal.pone.0046679

[29]

Miclotte G, Heydari M, Demeester P, et al. Jabba:hybrid error correction for long sequencing reads[J]. Algorithms for Molecular Biology, 2016, 11: 10.

[30]

Koren S, Walenz B P, Berlin K, et al. Canu:scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation[J]. Genome Research, 2017, 27(5): 722-736. DOI:10.1101/gr.215087.116

[31]

Hackl T, Hedrich R, Schultz J, et al. Proovread:large-scale high-accuracy PacBio correction through iterative short read consensus[J]. Bioinformatics, 2014, 30(21): 3004-3011. DOI:10.1093/bioinformatics/btu392

[32]

Salmela L, Rivals E. LoRDEC:accurate and efficient long read error correction[J]. Bioinformatics, 2014, 30(24): 3506-3514. DOI:10.1093/bioinformatics/btu538

[33]

Seung C S, Do H A, Su J K, et al. Advantages of single-molecule real-time sequencing in high-GC content genomes[J]. PLoS One, 2013, 8(7): e68824. DOI:10.1371/journal.pone.0068824

[34]

Miller J R, Koren S, Sutton G. Assembly algorithms for next-generation sequencing data[J]. Genomics, 2010, 95(6): 315-327. DOI:10.1016/j.ygeno.2010.03.001

[35]

Zerbino D R, Birney E. Velvet:algorithms for de novo short read assembly using de Bruijn graphs[J]. Genome Research, 2008, 18(5): 821-829. DOI:10.1101/gr.074492.107

[36]

Li R Q, Zhu H M, Ruan J, et al. De novo assembly of human genomes with massively parallel short read sequencing[J]. Genome Research, 2010, 20(2): 265-272. DOI:10.1101/gr.097261.109

[37]

Simpson J T, Wong K, Jackman S D, et al. AbySS:a parallel assembler for short read sequence data[J]. Genome Research, 2009, 19(6): 1117-1123. DOI:10.1101/gr.089532.108

[38]

Bashir A, Klammer A, Robins W P, et al. A hybrid approach for the automated finishing of bacterial genomes[J]. Nature Biotechnology, 2012, 30(7): 701-707. DOI:10.1038/nbt.2288

[39]

Boetzer M, Pirovano W. SSPACE-LongRead:scaffolding bacterial draft genomes using long read sequence information[J]. BMC Bioinformatics, 2014, 15: 211. DOI:10.1186/1471-2105-15-211

[40]

Ribeiro F J, Przybylski D, Yin S Y, et al. Finished bacterial genomes from shotgun sequence data[J]. Genome Research, 2012, 22(11): 2270-2277. DOI:10.1101/gr.141515.112

[41]

Walker B J, Abeel T, Shea T, et al. Pilon:an integrated tool for comprehensive microbial variant detection and genome assembly improvement[J]. PLoS One, 2014, 9(11): e112963.. DOI:10.1371/journal.pone.0112963

[42]

Jeong-Sun S, Arang R, Junsoo K, et al. De novo assembly and phasing of a Korean human genome[J]. Nature, 2016, 538(7624): 243-247. DOI:10.1038/nature20098

[43]

柳延虎, 王璐, 于黎. 单分子实时测序技术的原理与应用[J]. 遗传, 2015, 37(3): 259-268.
LIU Yanhu, WANG Lu, YU Li. The principle and application of the single-molecule real-time sequencing technology[J].Hereditas(Beijing), 2015, 37(3): 259-268.

[44]

尤晓颜, 张彬, 郑华军, 等. 微生物完整基因组测定中的Gap closure策略[J]. 微生物学通报, 2014, 41(5): 924-933.
YOU Xiaoyan, ZHANG Bin, ZHENG Huajun, et al. Strategies of Gap closure in complete microbial genome sequencing[J].Microbiology China, 2014, 41(5): 924-933.

[45]

黄勇, 范航, 张志毅, 等. 微生物全基因组测序组装中的gap填补方法[J]. 生物技术通讯, 2013, 24(6): 819-821.
HUANG Yong, FAN Hang, ZHANG Zhiyi, et al. Method of gap filling in microbial sequencing whole genome assembly[J]. Letters in Biotechnology, 2013, 24(6): 819-821.

[46]

Kosugi S, Hirakawa H, Tabata S. GMcloser:closing gaps in assemblies accurately with a likelihood-based selection of contig or long-read alignments[J]. Bioinformatics, 2015, 31(23): 3733-3741.

[47]

Kusuma W A, Ishida T, Akiyama U. A combined approach for de novo DNA sequence assembly of very short reads[J]. IPSJ Transactions on Bioinformatics, 2011, 4: 21-33. DOI:10.2197/ipsjtbio.4.21

[48]

DiGuistini S, Liao N Y, Platt D, et al. De novo genome sequence assembly of a filamentous fungus using Sanger, 454 and Illumina sequence data[J]. Genome Biology, 2009, 10(9): R94. DOI:10.1186/gb-2009-10-9-r94

[49]

Assefa S, Keane T M, Otto T D, et al. ABACAS:algorithm-based automatic contiguation of assembled sequences[J]. Bioinformatics, 2009, 25(15): 1968-1969. DOI:10.1093/bioinformatics/btp347

[50]

The open source code is available at[EB/OL]. [2017-05-20]. https://sourceforge.net/projects/wgsassembler/.

[51]

Jiao W B, Accinelli G G, Hartwig B, et al. Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data[J]. Genome Research, 2017, 27(5): 778-786. DOI:10.1101/gr.213652.116

[52]

杨强. 我国羊巴贝斯虫分子流行病学调查及基因组物理图谱绘制[D]. 北京: 中国农业科学院, 2016. 
YANG Qiang. Molecular epidemiological investigation and genomic physical mapping of ovine Babesia spp. in China[D]. Beijing: Chinese Academy of Agricultural Sciences, 2016. http://cdmd.cnki.com.cn/Article/CDMD-82101-1016174746.htm

[53]

王艳. 白菜参考遗传图谱的构建[D]. 北京: 中国农业科学研究院, 2011. 
WANG Yan. A sequence-based reference genetic linkage map of Brassica rapa[D]. Beijing: Chinese Academy of Agricultural Sciences, 2011. http://cdmd.cnki.com.cn/Article/CDMD-82101-1011159023.htm

[54]

陶婧芬, 谢婷, 郑觉非, 等. 基于染色质交互数据的基因组组装方法[J]. 生物技术通报, 2015, 31(11): 43-50.
TAO Jingfen, XIE Ting, ZHENG Juefei, et al. Genome assembly based on chromatin interaction[J]. Biotechnology Bulletin, 2015, 31(11): 43-50.

[55]

任学良, 徐海明, 崔海瑞, 等. 烟草种质资源极其创新技术研究[M]. 北京: 科学出版社, 2010, 307-308.

[56]

Bombarely A, Rosli H G, Vrebalov J, et al. A draft genome sequence of Nicotiana benthamiana to enhance molecular plant-microbe biology research[J]. Molecular Plant-microbe Interactions, 2012, 25(12): 1523-1530. DOI:10.1094/MPMI-06-12-0148-TA

[57]

国家烟草专卖局. 中国烟草基因组计划取得重大突破绒毛状烟草和林烟草全基因组序列图谱完成[ EB/OL]. (2011-12-13)[2017-05-20]. http://www.tobacco.gov.cn/html/30/3004/3893491_n.html.

[58]

刘贯山, 龚达平, 李凤霞. 烟草基因组学的发展现状与趋势[C]//2012-2013年烟草科学与技术学科发展研究报告. 北京: 中国烟草学会, 2013.

[59]

Xu S Q, Brockmöller T, Navarro-Quezada A, et al. Wild tobacco genomes reveal the evolution of nicotine biosynthesis[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(23): 6133-6138. DOI:10.1073/pnas.1700073114

猜你喜欢

转载自blog.csdn.net/u010608296/article/details/90110966