それぞれの種の参照ゲノム配列(参照ゲノム)を生成シーケンシングを得るためにシークエンシングの方法により、初めてゲノムを読み込む必要があります(読み込み)し、その後する新たアセンブリまたはアセンブリ(英語名デドゥーノボ ゲノムアセンブリ)、そして最終的に削減各染色体は、種、すなわち、4つの塩基ATGCの順序を配列決定しました。
なぜなら、現在のシーケンシング技術のゲノムスプライシングの理由は、唯一の短い配列を測定することができ、あなたは直接シーケンスに染色体全体を取得することはできません。世代シーケンシング(サンガー配列決定)は、一般に、約1キロバイトのシーケンスを測定することが可能であり、一般的に50〜500bpの測定世代シーケンシング(次世代シーケンシング)、; 100キロバイトの三の世代が測定できてもシングより長い配列が、また、3つの世代のシーケンシングかかわらず非常に成熟していない、配列決定の誤り率の高さがあります。(:AIPuFuBio、およびバイオインフォマティクスプラットフォームAIPuFuの使用:マイクロチャンネル公衆番号へようこそ注意www.aipufu.com)
デノボゲノムシーケンシングアセンブリプロセスデータ、単に記述することができる。----> ----コンティグ>足場---->染色体を読み取り、以下のように:
次に、我々は新たに、図の組み立てに関与する2つの概念を紹介するために回しコンティグと足場を:。
Contig是由多个reads通过组装而形成的长片段。由于测序读段较短、基因组序列通常含有较多重复序列、而且还有测序错误等原因,除了简单的基因组序列外,大部分物种的基因组序列组装都会先产生很多contig,无法一次获得完整的染色体序列。
Scaffold为多条contig序列连接形成更长片段,这些contig方向和顺序已经确定,且contig间未知序列(一般用NNNN表示)的长度也获知。
Scaffold的获得一般主要通过双端测序(如paired-end sequecing或mate-pair sequencing)来确定contig的顺序和方向,以及contig之间的间隔距离,具体如下示意图所示。
基因组测序数据的从头组装的核心算法主要可以分为以下几大类:
1、基于贪心算法(greedy-extention);
2、基于Overlap-Layout-Consensus(OLC);
3、基于de Bruijn Graph;
4、以上两种或多种算法的组合;
5、其他类型。
具体如下图所示:
其中最经典的两类为:
1)Overlap-Layout-Consensus(OLC)算法,基于OLC算法的组装软件主要是针对长测序读段(如Sanger测序、454测序等)设计的;
2)de Bruijn Graph算法,基于de Bruijn Graph的组装软件则主要是针对二代测序产生的短读段数据设计。
具体如下所示:
1)Overlap-Layout-Consensus(OLC)算法
2)de Bruijn Graph算法
现在主流的是二代测序技术,因此再给大家详细介绍一下专门针对二代测序数据开发的基于de Bruijn Graph的从头拼接方法。
其中一个非常著名的软件就是Velvet,是基于de Bruijn Graph设计的经典代表,其算法示意图如下:
Velvet的组装原理,主要可分为这几个步骤:
1)首先把所有测序读段(reads)都分割为更小的片段k-mer;
2)把每个k-mer作为一个节点,然后判断k-mer之间是否有k-1碱基的重叠,如果有则作为两个不同的节点连接起来。依次这样连接所有可连接的k-mer就形成了Velvet从头组装软件算法设计示意图中第2步的de Bruijn Graph;
3)依次合并相邻的k-mer,因为相邻的k-mer有k-1个碱基的重叠,就可进一步简化de Bruijn Graph形成Velvet从头组装软件算法设计示意图中第3步的简化后的图;
4)使用一系列算法消除由测序错误而形成的tips(具体如Velvet从头组装软件的算法设计示意图中所示),并合并bubbles(两条或多条路径序列,一般由SNP造成,如Velvet从头组装软件的算法设计示意图);
5)最后拼接得到Contig序列。
值得注意的是,Velvet从头组装软件算法设计示意图中最后一步拼接产生了回文序列,主要是由于原始序列中含有回文,如果k取为偶数(图中k=4)就容易在组装中形成这种现象。
为了有效的避免拼接中产生回文序列,一般k取为奇数。
那么基于基因组测序数据的从头拼接软件,那些具有较好的性能呢?
从上图中可以看出,Velvet和SOAPdenovo在拼接C.elegans、Yeast、E.coli、Swinepox的基因组序列时,相对于其他软件,组装结果更准确(A:Percentage of correctly mapped contigs)且拼接出来的序列能更完整的覆盖原基因组序列(B:Genome Coverage)。
大部分处理测序数据的软件都是由国外开发的,其中这里提到的SOAPdenovo为华大基因开发的从头拼接软件。
今天就给大家介绍到这里。更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio。
希望今天的内容对大家有用,会持续更新经典内容,欢迎留言~~!