二三代基因组混合组装流程的搭建与序列拼接并行优化方法研究_武海波

    当今世纪,生物学技术得到了迅速发展,世界己经进入了信息科学的时代和生命

科学的时代。与此同时,超级计算机的发展、集群的广泛应用、国际互联网的飞速发

展为分子生物学的研究提供了强有力的支撑。为了更加有效、更加方便快捷的对己知

生命的生物学相关的大量信息进行科学的、统一的管理以及分析利用,一门由多学科

交叉且涵盖了计算领域、信息领域和分子生物学领域的新的学科技术一生物信心学应

用而生。生物信息学,是一门涉及到多学科交叉的新兴学科,综合利用了生、数、物、

化以及信息计算科学、计算机科学技术等多学科。

在最近二十年来,伴随着科技的进步得到了迅速发展,逐渐成为现今世界研究的核心热点川。生物信息学通过利用现代的信息技术、统计学原理、计算机技术、物理和化学等学科技术对人类基因组计划和其相关领域研究所产生的海量数据将进行科学的、有效的分析,极大的提高了研究的有效性,大大的促进了人们从遗传角度充分的认识生物特性。而生物信息学因可以在有限的生物资源中破解出越来越多的奥秘,渐渐成为当今世界生命科学领域中越来越关键的角色。

         生物信息学是基于分子生物学衍生的多学科交叉的科学,它以计算机为数据处理

工具对生物相关信息进行科学有效的存储、管理和分析,是当今自然科学领域和生命

科学领域的重大前沿之一。生物信息学的发展,依赖于分子生物学和计算科学的发展,

其不断的突破又同时为生物学和计算科学提供了更多有效的材料、信息以及科学有效

的研究方法,并在对于生物相关信息的查询、比对、分析过程中,获取更多有关于

因编码、调控以及核酸、蛋白质结构功能的相关信息,进而从其相互关系中得到更多

的理性认识。生物信息学利用基因编码区的信息对蛋白质结构进行模拟和功能预测,

通过结合模拟和预测结果,找到其与生物体本身特征信息和生物体内部生命进程的代

谢途径、生理生化信息的联系关系,从遗传角度让人们对生物体分子机理有了深刻而

完善认识,最终科学地指导人们进行关于蛋白质核酸的药物设计、分子设计和特定的

医疗保健设计。广义而言,生物信息学是以数学统计学和信息学的理论、观点和方法

去研究具体的生命现象,科学有效的组织和分析海量的生物学相关数据的一门交叉学

科[[z]。以生物信息学,具体了解有关基因表达的调控机制,了解相关生物分子在基因

调控中的具体作用,深入[[3]。它的研究目标一直都是揭示“基因组信息结构的复杂性及

遗传语言的根本规律”,解密生命的遗传密码[[3]。生物信息学己成为自然科学和生命科

学领域发展的越来越重要的组成部分,也毫无疑问的成为当前生命科学研究的前沿热

点。

1.1.2 DNA测序技术的发展

    快速并准确的获得生物的DNA序列遗传信息对生命科学的研究来说一直具有着

非凡而重要的实际意义。对于每一个生命个体来说,基因组有着其所有的遗传信息。

DNA测序技术,能够真实有效的反映出DNA上的具体信息,进而能非常全面而准确

的揭示DNA遗传的唯一性、多样性和复杂性,因此DNA测序技术在基因组学、生物

信息学研究中一直有着不可或缺的地位。

    20世纪中,whitfeld等科学家研究出用化学降解的方法可以有效地测定多聚核糖

核营酸序列,而这将代表着开启测序技术的新纪元。随后1977年,Sanger等发明

了双脱氧核昔酸末端终止法以及Gibert等发明了化学降解法等测序手段,标志了第

一代基因测序技术的出现。随着时间的推移,继第一代测序技术之后的不同的第二代

测序技术方法被发明出来。第二代测序技术代表有llumina公司的开发的Solexa测序

技术, Roche公司的454测序技术和ABA公司的SoLiD测序技术。近几

年,测序技术迎来了新的曙光并取得了革命性的进步,第三代测序技术走进人们的视

野并迅速得到人们的认可以及广泛的应用。以Pacific Biosciences公司开发的单分子

实时(Single Molecule Real Time,简称SMRT)测序技术, oxford Nanopore

Technologies公司研究的纳米孔单分子测序技术和Helicos公司研制的单分子测序

技术为代表的测序技术被称作为第三代测序技术[[20]。从第一代测序技术到第三代

测序技术,测序技术一直朝着成本越来越低、测序序列读长长越来长的方向稳健发展

I.1.2.1第一代侧序技术

    1354年由Whitfeld等提出了以化学手段的多聚核糖核昔酸链的降解法来进行基

因测序,其基本原理是利用降解的方法从DNA链末端逐一的分离出单个碱基,并进

行逐一地检测,最后确定核糖核昔酸的种类。化学降解方法主要是利用了高碘酸盐

的氧化作用以及磷酸单醋酶的脱磷酸作用,但是这种做法操作及其复杂并且效率低

下,并没有在实际研究中得到广泛的应用。

    1977年,Singer等科研人员研发出了双脱氧核昔酸末端终止测序法,此法也被认

为测序技术的开端。其测序原理是:利用双脱氧核昔三磷酸(ddNTP)的特点,即

ddNTP与普通脱氧核昔三磷酸(dNTP)不同,它在2‘端和3’端都不含轻基,在DNA

合成中无法合成磷酸二酯键,因此可以利用这个特点来造成DNA的合成中断;用带

有放射性同位素来标记ddNTP,并在DNA合成反应中加入一定量的被标记的ddNTP ,

然后进行凝胶电泳以及放射自显影处理,最后通过确定电泳带的具体位置最终确定

DNA序列信息。同年filbert等人报道了化学降解法,该方法原理与S anger提出的方

法类似,即中断DNA反应的合成打断成随机长度的DNA序列片段,通过电泳带来测

定序列信息。两者的不同在于,前者是先使用特殊处理的化学试剂来标记碱基,之后

使用特殊化学方法随机打断DNA序列,后者则是通过被标记的ddNTP中断DNA合

成反应达到随机打断DNA序列的目的。此后,后人以经典的Singer法为基础研发了

自动测序仪,该测序仪利用荧光进行标记,摒弃了一直使用的放射性同位素标记,综

合利用计算机技术进行荧光信号的分析,并利用荧光信号接收器实现放射性自显影功

能[Cpl。

    90年代中期,随着毛细管电泳技术的即出现,第一代测序技术的测序通量获得

了很大的提升。除上述方法外,陆陆续续出现了更多的测序方法,比较有代表性的是

焦磷酸测序法(pyrosequencing) 、连接酶测序法(sequencing by ligation,SBL)

以及杂交测序法(sequencing by hybridization, SBH ) 等。焦磷酸测序法就是第二代

测序技术中4}4测序技术应用的原理测序方法,而连接酶测序法即为之后AF3I公司的

S}LiI}测序技术应用的原理测序方法。

1.1.a.Z第二代溯序技术

    第一代测序技术帮助人们完成了大量的测序工作,小到噬菌体基因组的测序,大

到人类基因组草图的测序,第一代测序技术己经非常成熟了。但是由于测序成本高、

效率低等方面的缺点,并没有得到广泛的应用。进入21世纪,继续一代测序技术之

后,第二代测序技术得到了很快的发展并彰显出其更大的优势。传统的二代测序技术

主要包括由Roche公司开发的454测序技术、Illumina公司研发的Solexa测序技术和

ABI公司的SoLiD测序技术[7-} }}。相比与第一代技术,第二代测序技术在保持了测序

的高准确度优势下,同时非常大地提升了测序的速度并极大的降低了测序成本,利用

二代测序技术,可以轻松而有效地解决对一个物种不管是其全基因组层面的测序还是

其转录组方面的测序的问题。二代测序技术使测序技术迈入了一个新的时代。人类基

因组计划,利用第一代测序技术测序,前后耗费了30亿美元的巨额成本,耗时三年

时间完成,对于第二代测序来说,如果要完成这一切只需要花费一周的时间就可以完

成对人类基因组的测序。鉴于第二带测序技术的测序数据读长较短的原因,二代测

序技术主要适用于对己知序列基因的重测序和杂合度较低的物种测序。利用二代测序

数据进行全基因组测序往往需要第一代测序数据就行补充,以更好的完成全基因的深

度测序。本文主要针对Illumina公司研发的Solexa测序技术原理步骤进行介绍,其他

两种测序方法原理如表1.1所示。

猜你喜欢

转载自blog.csdn.net/u010608296/article/details/121280465
今日推荐