三世代エラー訂正ソフトウェアLoRDEC 0.6 - READMEファイル

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/u010608296/article/details/102533125

http://www.atgc-montpellier.fr/lordec/README.html

LoRDEC 0.6 - READMEファイル

1。概要


PacBioに配列決定の誤りを訂正するためのプログラム(例えばイルミナ)高精度の短い読み取り使用して読み込みます。

 

2リファレンス


L. Salmela、およびE.ライバル。LoRDEC:正確かつ効率的な長い読んエラー訂正。バイオインフォマティクス30(24):3506から3514 2014。


アクセス:  http://bioinformatics.oxfordjournals.org/content/30/24/3506

 

3つのシステム要件


LoRDECは、Linux上でテストされています。プログラムをコンパイルする必要がgccのバージョン4.5以降、ブーストC ++ライブラリ(例えばlibboost1.48-devパッケージ以降)、およびGATBコアライブラリ

 

4インストール

  1. LoRDEC-0.6.tar.gzを解凍します。
  2. CD LoRDEC-0.6
  3. GATBコアライブラリをダウンロード  http://gatb-core.gforge.inria.fr/ .LoRDECはGATBコア1.0.6でテストされています。どちらのバイナリ版をダウンロードするか、ソースからのGATBコア・ライブラリーを構築するための指示に従ってください。
    • Linuxシステムの種類について:installdepを作ります
  4. GATBコアライブラリのインストールを指すようにLoRDEC-0.6ディレクトリにMakefileのGATB変数を変更します。
  5. ディレクトリLoRDEC-0.6でmakeを実行します。

 

5使い方

 

5.1エラー訂正:


lordec-正しい[パラメータ]


必須パラメータ:
-2、-shortreads = <短い.h5拡張子なしFASTA / Qファイルや構築済みDBGファイルを読む>
-i、-longreads = <長い読みFASTA / Qファイル>
-k、-kmerlen = <K-merのサイズ>
長い訂正のための-o、-correctedreadfile = <出力ファイルを読み込む>
-s、-solidthreshold = <堅牢性の豊富なしきい値K-merのために>


オプションパラメータ:
-t、-trials = <ターゲット・Kマーの数>デフォルト:5
-b、-branch = <探索するブランチの最大数>既定値:200
-e、-errorrate = <最大エラーレート>既定値: 0.4
-T、-threads = <スレッド数>デフォルト:すべてのコアが使用
生成されない:-S、-statfile = <パス統計ファイル>デフォルト


入力FASTA / Qファイルを圧縮することができます。いくつかのイルミナファイルは、カンマsepratedリスト(例えばreads1.fa、reads2.fq、reads3.fq.gz)として指定することができます。


LoRDECは修正FASTA形式で与えられたファイルへの読み込みを出力します。補正後弱いまま領域は小文字で出力され、固体領域は大文字で出力されます。

 

5.2読み込み、修正トリミング


修正読み込みの先頭と末尾から弱い領域をトリミングするには:


-o <トリミングされたファイルを読み込む> <修正は、ファイル読み込み>は-i lordec、トリム


すべての弱い領域をトリミングし、内側の弱い地域で読み込みを分割するには:


lordecトリム分割-i -o <トリミングされたファイルを読み込む> <修正は、ファイル読み込み>は、


トリミングされたスプリットのリード名は下線で区切られた2つの部分で構成さ読み出します。最初の部分は、元のリードの名前であり、第2の部分は、そのリードから抽出された固体領域のランニングインデックスです。

 

5.3統計:


固体と弱いK-マーの統計を生成するには:


lordec-STAT -2 <ショートFASTA / Qファイルを読む> -k <Kマーサイズ> -s <固体K-merの閾値> -i <PacBio FASTA / Qファイル> -S <出力STATファイル> [-T <スレッド数>]


次のように出力統計ファイルのフォーマットがあります。以下の情報をお読みごとに1つのラインがあります:

  1. 読み出し中の固体のKマーのNB
  2. 読み込み中のK-マーのNB
  3. 弱Kマー開始NB弱い頭部の長さ、すなわち(-1全く固体Kマー場合)
  4. 弱いテールのテールすなわち長の弱いK-マーのNB
  5. 固体Kマーのランの長さのリスト

 

パスの5.4統計


補正読み取りながらLoRDECが検討パスの統計情報を生成することができます。-s、-statfile = <パス統計ファイル>、追加のパラメータを指定してLoRDECを実行パスの統計情報をオンにします。


大規模なデータセット上でLoRDECを実行している場合、パスの統計ファイルが巨大なことができることを注意してください。次のようにファイルの形式はあります。フォーマット固体[i]を有する線= <位置>ソース固体Kマーの位置を伝えます。唯一のスレッドでLoRDECを実行した場合、次の行では、ソースとしてそのKマーとのパスになります。複数のスレッドを使用する場合は、行がランダムにインターリーブされています。パス毎に5つのフィールドを持つ行が出力されます。

  1. リードにおけるソースおよびターゲットK-merの間の差として期待される経路長
  2. 経路検索のステータス:
    0:パスが発見されたソースとtarket K-マーは、固体のK-マーの同じ実行に属していない
    1:パスが見つかったと、ソースとターゲットのk量体は固体の同じ実行に属しKマー
    2:期待されるパスの長さが長すぎる、スキップ
    3:検索が停止し、あまりにも多くの分枝。
    4:何もパスが見つかりませんでした
  3. 見つかったパスの長さ
  4. リードにおけるパスと弱い領域との間の編集距離
  5. パスの種類が検索
    END2END一kmerから別の
    TAIL:リードの頭部または尾
    GAPEXTEND:半分の長さまでギャップの拡張

 

5.5デBruijnグラフ、グラフを作成して保存


読み取りまたはK-merの統計を生成するために長いを修正するには、LoRDECは短いからデBruijnグラフのグラフは、ファイルを読み込み構築します。このプログラムは、構築し、そのような分析を行う前に、ファイル内のグラフを保存し、短い読み込みファイルからそれを計算するのではなく、グラフファイルをロードすることができます。あなたはグラフを複数回再利用する場合、これは時間を節約できます。グラフはに保存されている  階層データフォーマット  (:バージョン5 HDF5)。


lordecビルド-SR-グラフ[-T <スレッド数>] -2 <FASTAファイル> -k <K-merのサイズ> -s <固体K-merの閾値> -g <アウトグラフファイル


、ショートの<FASTAファイルが>読み込む読み込み、次いで構築し、長さ<K-merのサイズ>のKマーのために彼らのデBruijnグラフのグラフを保存し、少なくとも発生<固体K-merの閾値>時間

 

 

6例


以下では、このパッケージのプログラムを実行するためのコマンドラインの簡単な例を提供します。

 

6.1エラー訂正


lordec-正しいillumina.fasta -2 -k 19 3 -s -i pacbio.fasta -O-pacbio corrected.fasta

 

  • いくつかの短い読み込みファイルと誤り訂正
    • ワンPacBioファイル:pacbio-mini.fa
    • 二イルミナファイル:病気試験-5K-1.faと悪いテスト-5K-2.fa
    • イルミナの2つのファイルを使用してPacBioファイルを修正するためのコマンドは、読み取ります。


    lordec-正しい-2悪いテスト-5K-1.fa、悪いテスト-5K-2.fa -k 19 -s 3 -i pacbio-mini.fa私-修正-pacbio-reads.fa&-o> mylog.log

     

    • 末尾に「&> mylog.log」、ログファイルに標準エラーをリダイレクトして、画面に表示されるまでに長いメッセージを回避できます。

     

6.2トリミング


lordec-トリム-i pacbio-corrected.fasta -o pacbio補正さ-trim.fasta


lordecトリム分割-i pacbio-corrected.fasta -o pacbio補正後のトリム-split.fasta

 

6.3統計


lordec-STAT -2 illumina.fasta -k 19 -s 3 -i pacbio-corrected.fasta -S pacbio補正-stats.txt

 

6.4グラフの構築


lordecビルド-SR-グラフ-2 illumina.fasta -k 19 -s 3 -gイルミナ-19-3.h5

 

7つの変更

7.1バージョン0.5

  1. グラフを構築し、シーケンスのファイルを読み込むためのGATBの最後のインターフェイスへの適応:LoRDECはGATBコア(gatb-コア-1.0.6-Linuxの)の最後のバージョンで動作します。
  2. lordec-正しい、lordec-STATコマンド、および短い読み取り含むファイル名のリストを含むファイルを読み込むためlordecビルド-SR-グラフは、入力として受け入れます。
  3. 「installdep」という名前のターゲットはLoRDECをコンパイルする前に、最後のGATBコアバージョンをインストールするには、Makefileのに追加されました。

 

7.2バージョン0.4.1


スタック割り当てられたメモリのオーバーフローを引き起こす可能性がありますバグを修正しました。

 

7.3バージョン0.4


複数のイルミナファイルを許可:複数の短い読み込みファイルは現在、カンマ区切りリストとして指定することができます。


デフォルトではGATB 1.0.5が使用されています。古いGATBに対してリンクをご希望の場合、コンパイラフラグ-DOLDGATBを使用しています。

 

7.4バージョン0.3


オプションは変更されていると、彼らは今のgetoptで解析されています。


パスの統計情報を生成すると、もはや再コンパイルを必要としません。


最大読み取り長は500000に増加しました。


DBGをprebuildingためClarfied用法。

 

7.5バージョン0.2


コードはGATBコア1.0.4と互換性があります。

日付:2015年3月5日午前四時00分38秒、午後のCET

著者:レーナSalmela([email protected])、エリックのライバル([email protected]

Emacsのバージョン23と組織のバージョン7.8.02

検証XHTML 1.0

おすすめ

転載: blog.csdn.net/u010608296/article/details/102533125