【BWA】アラインメントソフトウェアの使用

BWA简介

BWA(バロウ-ウィーラーアライナ)、DNA配列は、参照ゲノムにマッピングソフトウェアです。BWA-バックトラック、BWA-SWとBWA-MEM:3つのアライメントアルゴリズムがあります。詳細は見ることができヘンは説明しました。

  • バックトラック-BWA:コマンドに対応する100bpで以内短い配列、aln/samse/sampe(samse =サンプルシングルエンド、SAMPE =サンプルペアエンド)。
  • SW-BWA:支持長い配列(の70bp-1Mbp)及びスプライスアラインメント(スプリットアラインメント)、コマンドに対応します:bwasw
  • MEM-BWAは:また、推奨アルゴリズム(、新しいより速く、より正確な)、対応するコマンドの比較より長いシーケンスおよびスプライスをサポートしていますmem

BWA使用

1.建設インデックス

前の組よりも読み込み、FM-インデックスFASTA上に構築する必要があります。

index Usage:
      bwa index [ –p prefix ] [ –a algoType ] <in.db.fasta>
OPTIONS: 
      -p STR   输出数据库的前缀(默认和输入文件名一致)
      -a [is|bwtsw]   构建index的算法: is 是默认算法,相对较快,但需要较大内存,不适合超过2G的基因组。 bwtsw 对于基因组大于2G的,如人类基因组。

例:

bwa index ref.fa
bwa index -a is ref.fa             #对小基因组建立index,速度快,内存消耗大
bwa index ref.fa -p genome
bwa index -a bwtsw ref.fa         #对于大基因组建立FM-Index

2.比較

1)。よりMemの
mem Usage: bwa mem [options] ref.fa reads.fq [mates.fq]
の最も一般的に使用されるアライメント方法、MEMはアラインメントを実生ためのMEMS(最大の完全一致)を使用して、再利用SW(アフィンギャップスミス-ウォーターマンアルゴリズム)種子を延びる、MEMローカルアラインメント及びスプライシングしたがって、配列の異なる領域のために長いそれを読み出すために特に重要であり、最良のマッチング結果の多様を生成することができます。一部のソフトウェアは、このような、あなたが次善のとしてマークされた短い分割ヒットに-Mオプションを使用することができ、その場合には、MEMアライメントとピカールのmarkDuplicates、スプライシングなどと互換性がありません。
一般的なパラメータ:

-t   线程数,默认1。
-M   将 shorter split hits 标记为次优,以兼容 Picard’s markDuplicates 软件。
-p   若无此参数:输入文件只有1个,则进行单端比对;若输入文件有2个,则作为paired reads进行比对。若加入此参数:则仅以第1个文件作为输入(输入的文件若有2个,则忽略之),该文件必须是read1.fq和read2.fa进行reads交叉的数据。
-R   STR 完整的read标头,可以用 '\t' 作为分隔符, 在输出的SAM文件中被解释为制表符TAB. read group 的ID,会被添加到输出文件的每一个read的头部。

-T   INT   当比对的分值比 INT 小时,不输出该比对结果,这个参数只影响输出的结果,不影响比对的过程。-a 将所有的比对结果都输出,包括 single-end 和 unpaired paired-end的 reads,但是这些比对的结果会被标记为次优。

例:

bwa mem ref.fa reads.fq > aln-se.sam
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
bwa mem -t 4 -M -R "\@RG\tID:{library}\tLB:{library}\tPL:Illumina\tPU:{sample}\tSM:{sample}\" ref.fa read1.fastq read2.fastq > mem-pe.sam 2> ./mem-pe.log

2)ALIGN / samse / SAMPEより
用の単一リード。

bwa aln [options] ref.fa read.fq > aln_sa.sai
bwa samse [options] ref.fa aln_sa.sai read.fq > aln-se.sam

以下のためにペア読み取ります。

bwa aln [options] ref.fa read1.fq > aln_sa1.sai
bwa aln [options] ref.fa read2.fq > aln_sa2.sai
bwa sampe [options] ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam

BWAのAlN古典的使用は、第1の基準配列のアラインメントに単一のコマンドを読み取り、または再使用samse SAMPE SAMファイルの生成。使用法:

bwa aln ref.fa short_read.fq > aln_sa.sai
bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam
bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam
bwa bwasw ref.fa long_read.fq > aln.sam

3)。Bwasw比較

bwa bwasw genome long_read.fq > aln.sam
bwa bwasw genome read1.fq read2.fq > aln-pe.sam

3.人間の例

# 建索引
bwa index -a bwtsw -p hg19 hg19.fa 1>hg19.bwa_index.log 2>&1
# 比对
bwa mem -t 5 -M -R @RG\tID:KPGP-00001_L1\tSM:KPGP-00001_L1\tLB:WGS\tPL:Illumina ~/reference/index/bwa/hg19  KPGP-00001_L1_R1.fq.gz KPGP-00001_L1_R2.fq.gz 1>KPGP-00001_L1.sam 2>KPGP-00001_L1.bwa.align.log

参考:https://www.jianshu.com/p/3b86615d647b
https://www.jianshu.com/p/1f6899d0fb71
https://www.bioinfo-scrounger.com/archives/181/

おすすめ

転載: www.cnblogs.com/jessepeng/p/12519015.html