カラーマップは:ロングマッピング短いによって読み込み修正することカラーマップを読み込む:短い読み取り長リードをマッピングすることにより補正します

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/u010608296/article/details/102666829

カラーマップ:マッピング短い読み取りによって修正ロング読み込み

カラーマップ:マッピング短いことで長い読み取りを修正するために読み込みます

動機:

第二世代のシーケンシング技術は、原核生物と真核生物を含む配列決定されたゲノムの数の異常な増加のために道を開きます。しかし、短い読み込み組み立てることが困難であり、多くの場合、非常に断片化されたアセンブリになります。ロングは、最新の開発配列決定法は、この問題を解決するための有望なアプローチを提供してお読みください。しかしながら、これまでのところ、それは長い読み出すことを特徴とする誤り率、より高い長いリードから組み立てられる必要カバレッジの深さこれは、ハイブリッドアプローチの使用の開発につながった高品質、短読み取り長い読み取りエラーを訂正します。

結果:私たちは、カラーマップ、長い読み取りを補正するため、例えば長を読んハイブリッド法を紹介し、イルミナPacBioは長い読み込み読むためにマッピングされた高品質のダブルエンドシーケンシング技術を使用しています。我々のアルゴリズムは、2つの新規な着想に基づいている:古典的な使用最短パスアルゴリズムをショートリード配列重複を見つけるために、最小スコアエディタは、マッピングされていないパートナーを局所的に組み立てられた膨張補正領域をマッピングすることにより長短読み取りに読み込みます。我々細菌、真菌および昆虫は、データセットが良好な結果ColorMapので、補正を混合する従来の方法と比較して示して生じます。

前書き

   達成ゲノムのセットが多数を適用することにより、ゲノミクス技術と洗練された医療分野のハイスループットシークエンシング(HTS)の多くの最近の進歩。(。; Korlachら、2010。イードら、2009)とオックスフォードナノポアシーケンサー進化の誕生(。マーグリーズら、2005)以来のHTS技術は、そのような太平洋の生物科学などの単一分子シークエンシング技術は、特定ので最近導入されて以来(Cherfら、2012);アイゼンシュタイン、2012; Manlaoら、2012)。

  HTS技術は、人間でのカタログの通常のゲノム変異(1000ゲノムプロジェクトアライアンス、2010、2012)を証明しているが、病気が突然変異を引き起こしたことがわかった(O'roakら。、2011)、および新しいゲノムアセンブリを構築する(Gnerreらアル。、容量2011)に関して、彼らが生み出すデータのコンピュータ分析は、まだ非常に困難です。現在の配列決定技術の主な制限は、短いリード長(アルカンら、2011; Hormozdiariら、2009)一般的な反復長にその点で人気があります。

パシフィック・バイオサイエンス(パシフィック・バイオサイエンス)とオックスフォードナノ細孔会社(オックスフォードナノ細孔)の新技術は、それが可能短距離で繰り返される困難を克服すること、長い読み出し時間を作成しています。この技術は、(EEら、2014 ;. Ferrariniら、2013 ;. Hoeflerら、2013年)、混合デノボアセンブリ(グッドウィンら、2015 ;.グロスら、2013 ;.コレンらのde novoアセンブリのために使用されます。ら、2012)(ここで、エラー短い混合を読み取るイルミナ長い低い読み)は、ボイド足場(英語ら、2012 ;.ラムら、2015)を埋めるために.. ゲノム仕上げ(バシルら2012 ;. Brownら、2014 ;.チンら、2013)、再構成(ハドルストンら、2014 GCリッチ領域及び複合領域;.スコットとエリー2015年;シンらら、2013)と構造変化検出器(Chaissonら、2015; ..土井ら、2014 ;. Ummatとバシル2014年)。一つは、全体的に分析可能性が高く、読む時間長いと思うかもしれないが、理由は配列決定の誤りの彼らの高い率で、これらの技術は、取り扱いが困難読んで生成されます。実際には、Pacbio(トンプソンとミロス2011 ;.トラバースら、2010)と、それぞれ20%および35%と高いオックスフォードナノポア(グッドウィンら2015年)エラー率は、これらの読み取りはイルミナの技術開発のために直接使用することはできません下流管の分析。

読書の質を改善するために、我々は多数のツールを開発した(参照Laehnemannら。、(2016)、エラー訂正ツールの見直し)。(I)補正方法、および(ii)自己混合方法:これらのツールは、2つのカテゴリに分類されます。「自己補正」アプローチでは、アイデアが長いだけ読んで使用して長時間読みを補正することです。この方法では、リーダー間の複数のアラインメントは構成されている2つ(完全配向)のそれぞれの読み取り長によって対比されます。これに基づき、より高品質の配列とコンセンサス配列の設立。この方法は、HGAP(チンら、2013)、実施されているhgapはアセンブラ混合されていない細菌のゲノムデータを処理することができます。最近導入されたアセンブラCanuである(ベルリンら,, 2015)リード間のオーバーラップ長さを検出するために考え部分ハッシュに依存し、オーバレイそれらを使用して組み立てました。一方、混合方法。PacBioToCA(コレンら2012)、LSC金(Auら、2012)、proovread(Hacklら,, 2014)、LoRDEC(Salmelaと,, 2014)]、高品質ジョイント短いリード長と騒々しいを使用しようとし長い読み取りを修正するために読んで。PacBioToCALSCが短いこれらの短いリードマップの長い整合性を修正するために、このような長いリード長にマップを読み取るように(マップを読み取り、コールによって読み取ら;. Proovread反復プロセスは、同様のアイデアを使用するが、マッピングとのキャリブレーションに連続的感度を向上させる。Nanocorr(グッドウィンら,, 2015)、およびLoRDEC異なるローカル・アセンブリのための同様の方法を用いて(Salmelaおよび2014年)。Nanocorrは重複読み出しを算出する最長の増加配列(LIS)に依存します。その代わりに、デBruijnグラフ図短いリードから構成LoRDEC、次に読み出す固体領域との間の経路長を見つけるには、長いのそれぞれを整列することが目的領域シーケンス編集距離を有するパスを最小にすることで、図ドBruijnグラフを読み出します。

自己補正方法一つの大きな欠点は、それが最近の進歩は、より少ないリソース(ベルリンらを必要とするにもかかわらず、全長を実行するために、コンピューティングパワーの多くは、それらの間の重複を見つけるために、完全なマッチングのペアを読む必要があることである。2015年)。さらに重要なのは、自己補正方法の使用は見つけるために、エラー訂正のために使用することができ、少なくとも50倍長い読み取り範囲(コレンとPhillippy、2015年)が必要です。50カバレッジを得るために、低スループット単一分子配列決定技術を考えると高価です。メソッドのミキシング利点は短いが、同じドナー読み取り長からの低カバレッジを補完するために、低コストで高いスループットを生成することができる読み込むという事実から来ています。

我々は、高品質の短い読み、正しい長い読み取りノイズを使用するハイブリッド方式のカラーマップを、導入します。LSCとPacBioToCA等は、カラーマップは、短いリード長を最初のステップとして読み取られるにマッピングされました。しかし、それは、各基地でコンセンサスベースコールを探していませんが、編集スコアを最小限に抑えるために、短い読み取り長を読んエリアマップを重ね、最適なパスを見つけることを目的とした地方議会の問題として長い是正読み取り領域の問題は、解決することができますしたがって、正確な、私たちの標準的な後者の方法とは異なる規格Nanocorrで定義された目的関数を提出するときNanocorrが使用最長増加サブシーケンス(注意,,に基づいて、最短パスアルゴリズム(SP)の古典的な問題を十分に活用定義が利用可能ではなく、唯一の精度とアライメント長「)を最大化しながら、一般的な原理は類似しているが、それは、ペナルティと重なることが記載されています。次に、第2工程では、この問題を修正するためには、より高いエラー率ではなく、短い読み取りマッピング(と呼ばれるギャップ)、アンカー(OEA)、地図の新しく作成された一端を使用しての考えに、長期的な読み取り領域を扱うカラーマップ示されていない読み取りコンパニオンは正しい脇腹にマッピングされました。

カラーマップを評価するために、我々は3つのデータセット、細菌ゲノム、昆虫および真菌ゲノムのゲノム、およびPacBioToCA、LSC、proovread LoRDECと比較の結果と我々の結果を適用します。参照ゲノム領域とトータルの配向に揃え長い正しいリーディングカラーマップは、他の方法に比べて、基準ゲノムに整列しつつ、我々は、LoRDEC、PacBioToCAのproovreadカラーマップ読み取り及び補正精度の精度ことが観察され、両方の正しい数を読み出しサイズ。99.48を超える、例えば、細菌ゲノムのためのデータ、長いシーケンス全体補正、99.38パーセントの平均速度よりも基準長ゲノムアラインメントの塩基配列と89.7パーセント、LoRDECより86.9パーセント一方、平均速度%。また、プログラムCanuアセンブラ(https://github.com/marbl/canu)によって設定されたカラーマップの品質がわずかに良い生産、使用して読んだ後、長い変更、ことを観察しました

最も混合のようなエラー訂正方法は、カラーマップは設定読み出し動作は、それらが同一の入力ソースから来て、即ち、短いリード動作と長いリード動作が入力されます。カラーマップの最初の使用BWA-MEMは、短いリード長(リー、2013)にマッピングさ読み出します。そして、図BWA-MEMの構造を使用してマップから設定されている同様のオーバーレイを構築し得ます。SP多項式時間アルゴリズムは、次に、マップカラーマップを再構成することができる短い配列は限り最小編集エリアカバレッジ分数を読み出し、領域の補正配列として使用することができ、重なる読み出します。

読み出しおよびソーティングの短い長さに同じ入力ソースから読み取られるために、短いリード・マッピングは、一般に、リードの長さの大部分を覆っている(表5参照)。それらは読み出しノイズの長さ上の領域の数にマッピングされるので、リードの長さは、それらが長い読み取りの終了時に、または2つの補正領域との間にあるので、我々は、ギャップを呼び出す任意のショートを覆うように読み取られません。第二工程において、カラーマップは正しいOEAs拡張領域を使用しようとすると、OEAs読み取りに長い読出し動作の正しい領域にマッピングされていないが、対応する読み出し動作が長い読み出し動作にマッピングされる読み出し動作。各ギャップのために、カラーマップ次いでMinia(ChikhとRizk、2013)は、ローカルギャップOEAsを実行する正しいギャップを得ることがコンティグの収集および使用に関連するアセンブリ。

3つの結果

3.1データと計算の設定

3.2評価尺度

補正方法のパフォーマンスをチェックするためにどのように、我々は(Salmelaや競合他社、2014)を追跡し、基準に合わせ読み取り長ゲノム配列を修正して、新規の長い読みシーケンスアセンブリのための良好な補正を確認する方法を好意的に調べました。長いマップを参照ゲノムに読み込み、我々はBLASR(ChaissonとTesler、2012)、及びBWA-MEM(李、2013)を使用しました。評価するためにこれらのツールを使用するための根拠はいくつかの読みが通常あり観察され、1は、マップを検索し、他のマッピングツールは報告されていません。BLASRは、参照配列を読み取るように設計された長さPacBioを調整するように設計されています。長い読んそれぞれに最適なアライメントを提供し、-noSplitSubreadsは-bestn 1 BLASRを実行するオプションを使用します。BWA-MEMは、参照配列にマッピングされた読み取り、pacbio -x騒々しいPacBio長い読み取りオプションを扱うことができ、長いをサポートし、高速アラインメントツールです。しばしばBWA-MEMレポートがなく、連続的アラインメントよりも、長い読み取りマルチブロックマッピングであることに留意されたいです。フラグメント間の距離は、読み取りの長さよりも大きくない基準位置にマッピングした場合、当社の評価では、我々はまだこれらのセグメントの全てを読み込み、長い整列されている検討してください。私たちが考える最初の評価指標は、参照ゲノムの長い読み取りと整列しています。我々はまた、正しい読み長整列塩基の数を記録し、一致する塩基の基準値と整列されます。我々は(Salmelaおよび2014)におけるアイデンティティの概念を算出し、基準は、ゲノムの領域の長さと一致する塩基の数の比として定義されます。

トリミングやスリットの3.2.1正しい読み

補正ツールの比較において、およびLoRDEC ColorMapの全長読影レポートは、大文字小文字領域未補正後の品質領域の補正を示しています。proovreadは、別個の配列として全長読取補正(補正領域が、標識されていない)と補正領域を出力します。しかし、PacBioToCAが長い別シーケンスとしてのみ出力補正領域を読み出します。我々は、完全長のカラーマップ、LSC、LoRDECから読み出さ全て未補正の塩基を削除評価し、得られたproovread、及びリテンションギャップ(両側補正されていない領域補正領域)が長いリードから得られた場合に終了しますトリム長いお読みください。PacBioToCAとproovreadと比較するために、我々はまた、評価され、カラーマップLoRDEC長い読み取り配列から分離され、配列読み取り長さが正しい配列読み取り長さの領域を抽出することによって得られ、各領域があると考えられています個々のシーケンス。

3.3 の比の比較に基づいて

結果を表2-5に示します。これらの結果は、(同じ結果に基づくBWA-MEM較正を達成するために、補足情報を参照)校正BLASRに基づいています。PacBioToCA、LoRDECとproovreadよりもわずかに低いものの、高い平均レベルを維持しながら、我々は、後方参照ゲノム最高の性能に対する補正を読み取るという点で、カラーマップを観察することができます。これは、OEAは、補正エリアの大きさを改善するための手順を無視することはできません、また面白いですが、また、トリミングされる平均読み取り一貫性が向上します。補正エリアの面では、proovread階層化アプローチがあるかもしれないかどうかを確認するために、最長の面積を計算する非常に興味深いことができ、当社のアルゴリズムと組み合わせるproovread。

3.4 のアセンブリの比較に基づいて、

長い読み取り後の比較補正の品質に加えて、我々は、異なるツールの補正後の長い読み取りが下流の分析タスクの範囲で使用することができます研究しました。専門アセンブラ、CANU(ベルリンら、2015)があるので、我々は、デノボアセンブリタスクを選択し、ノイズを読み取るのに長い時間のために使用することができます。組み立てられたコンティグの品質を評価するために、我々はquast(gurevichら、2013)を用います。

補足表読みの各種補正工具長セットによって補正CANU上で実行されている出力モジュールによって得られたQUAST S5-S7を示します。E. coliおよび酵母観測データセットは、補正されたデータの組から組み立てコンティグが最高NGA50、低い屈折率のミスマッチの数と、参照ゲノムのより良好なカバレッジを有する米国によって読み取られる示します。しかし、キイロショウジョウバエショウジョウバエデータセットの収集は、長い読み取りカバレッジ(9.7の範囲、および少なくとも50 canuのカバレッジ推奨倍)に低くなることができる、信頼性が低いように見えます。

討論

私たちは、読んで長いカラーマップを補正する新しい方法が、その主な機能はある記述します

(I)SPはそう長く読み、短期読みマップされていない(すなわち、いわゆるOEAs)に一致する最初の拡張の編集スコアの最小化(II)の使用、修正シーケンスを見つけるために、ビューを揃えるために、重み付けアルゴリズムに依存します補正。

我々の実験結果は、特に長いと比較して優れた効果を有するColorMapの従来の方法を用いて維持したまま補正を基準にし、下流分析のために、従来の方法よりもマッピングすることができる読み取る、ことを示している高精度のを長いのより良い補正効果が読み込み中。

2つのカラーマップアルゴリズムの基本的な原理は、一貫性のある方法(例えばproovread)ベースの最適化手法(例えばLoRDECとNanocorr)合成の利点です。コンセンサスのアプローチとして、我々は正しい読みコンパニオン読み取り領域(OEAアルゴリズム)(SPアルゴリズム)またはマップされた、しかし、およびLoRDECは、我々はまた、短期の全体的な状況を占めて選択することにより補正読み取るマップを使用して、読みマップに依存しませんSPアルゴリズムの最適化基準。

別の客観的な基準は、(長い読み取りを最小限に抑えるために、スコアを編集します)がありますが、最近のNanocorr補正方法と同様の原理の最初のステップ、。そしてLoRDEC(最小編集距離も考えられるが、発見的方法)一緒に、これらの方法は非常に異なる一貫性に基づく方法であり、最適化方法を用いて得られた結果は、アライメント整合性ベースの方法をベース(proovreadそしてPacBioToCA)は、より良い比較します。

このステップでは、短い読み取り長に依存するため、エラー訂正能力のパフォーマンスに影響を与えるマッピングツールは避けられない、マッピングをお読みください。この影響を軽減するために、カラーマップは、ユーザーが精度と実行時間(補足表S2参照)との間のトレードオフのためのブロックサイズを選択することを可能にします。別の可能な解決策は、厳選されたパラメータを持つすべてのマッパーツールを使用することです。そのようなツールの例はmrFAST-2.5(XINら、2013)です。

我々の方法の第2工程は、一般的に、すなわち、マッピングされていない読み出し、考慮していないマッピングに基づいて、データに依存しています。我々の実験は、OEAを追加すると、大幅に修正領域の大きさ、さらには平均機能を改善することを示しています。これは、読み込み対象の募集方法の可能性があることを示し、原理は、そのようなので、上の欠陥を充填し、のような他の問題のために使用されてきました。(ベースOEAは、編集距離デBruijnグラフを最小化しようとしているアセンブリを読んで)これらの任意の短い読み取りを防ぐために、初期ギャップの長い読み取りの割合が高いにも関わらず、誤りの訂正の品質を向上させるだけLoRDEC原理を利用見るのは興味深いだろうアラインメントをお読みください。また、探検する価値反復法では、OEAは、補正エリアで組み立て基づいて、新しい読書を検出しようとします。小さなサイズ(表5)の未補正平均面積は、これが大幅に補正点のリード長さを増加させることができることを示しています。

おすすめ

転載: blog.csdn.net/u010608296/article/details/102666829