参照
ローランBouriドミニクLavenier。長い読んで誤り訂正ソフトウェアの評価。[研究
レポート] RR-9028、INRIAレンヌ-ブルターニュアトランティック; GenScale。2017年<HAL-01463694>
2.6 LoRDEC
はじめ
LoRDEC長い読み取り修正する読み出し短いから構築デBruijnグラフのグラフを用いて、ハイブリッド補正です。
ウェブサイト: http://www.atgc-montpellier.fr/lordec/
インストール
LoRDECは、Linux上で利用可能であり、CMakeの2.6+およびGCC 4.7+が必要です。
インポートLoRDECとGATBライブラリ(http://gatb-core.gforge.inria.fr/) :
$ wget http://www.atgc-montpellier.fr/download/sources/lordec/LoRDEC-0.6.tar.gz
$ tar zxvf LoRDEC-0.6.tar.gz
$ cd LoRDEC-0.6
$ wget https://github.com/GATB/gatb-core/releases/download/v1.1.0/ \gatb-core-1.1.0-bin-Linux.tar.gz
$ tar zxvf gatb-core-1.1.0-bin-Linux.tar.gz
Makeleから変数GATB VER(1.1.0)をインストールLoRDECを変更
$ make
$ cd ..
入力データ
LoRDECはFASTAまたはFASTQル形式で読み込み、長いFASTAまたはFASTQル形式で読み込み、短いが必要です。
パイプライン
の実行バイナリ「lordec-正しい」との長い読まエラー訂正:
$ lordec-correct -2 Illumina.fasta -k 19 -s 3 -i pacbio.fasta -o pacbio-corrected.fasta
•2:短いのファイルを読み込みます。
•K:デBruijnグラフグラフで使用kmerのサイズ
が正しいと見なされるべきkmerの存在閾値:•S
•I:入力ル
•O:出力レ
一連のステップは、その後長いを補正するために行われる読み取り:
短いから脱Bruijnグラフのグラフの1建設読み取る
S値未満の発生とKマーの2抑制
の最適経路を選択3。パス間の編集距離を計算することによって、グラフ
と長いリードの領域。
出力データは
修正シーケンスは、LEは「-o」パラメータの後に示された出力になります。FASTA形式で出力LEは長い読み込みが含まれています。未修正のシーケンスは小文字として表示されている間、修正さシーケンスは大文字でdenedされています。Lordecは、最初に補正されていない配列を除去し、長い読書の終わりにのみ修正シーケンスを保つためにする可能性をOERS。
$ lordec-trim -i fichier_reads.fasta -o fichier_trim.fasta
•私は:修正がle読み込み
出力ル:•oは
$ loredec-trim-split -i fichier_reads.fasta -o fichier_trim_split.fasta
•私は:修正がle読み込み
出力ル:•oは