Pileup Format

Pileup 格式最早是Sanger研究所的Tony Cox 和 Zemin Ning开始使用的;最开始,它用于展示染色体各个位置碱基信息。

现在一般也用于测序数据比对结果的可视化。

SAMtools Pileup 格式如下:

seq1 272 T 24  ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
seq1 273 T 23  ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+
seq1 274 T 23  ,.$....,,.,.,...,,,.,...    7<7;<;<<<<<<<<<=<;<;<<6
seq1 275 A 23  ,$....,,.,.,...,,,.,...^l.  <+;9*<<<<<<<<<=<<:;<<<<
seq1 276 G 22  ...T,,.,.,...,,,.,....  33;+<<7=7<<7<&<<1;<<6<
seq1 277 T 22  ....,,.,.,.C.,,,.,..G.  +7<;<<<<<<<&<=<<:;<<&<
seq1 278 G 23  ....,,.,.,...,,,.,....^k.   %38*<<;<7<<7<=<<<;<<<<<
seq1 279 C 23  A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<

格式每一列对应的是:
chromosome:参考序列号
1-based coordinate:参考序列上碱基位置
reference base:参考碱基
the number of reads covering the site:覆盖该位点的reads数目
read bases:匹配到参考位点的reads碱基
base qualities:reads碱基质量

reads碱基列:

  • 点(.)表示比对到正链,逗号(,)表示比对到反义链;
  • 在表示错配时,``ACGTN' 表示reads与reference 正链错配,·acgtn`表示reads与reference 反义链错配;
  • +[0-9]+[ACGTNacgtn]+表示在对应参考碱基位置和下一个碱基位置之间有插入。整数表示插入片段大小,后面插入的碱基。
seq2 156 A 11  .$......+2AG.+2AG.+2AGGG    <975;:<<<<<

``-[0-9]+[ACGTNacgtn]+`'表示在对应参考碱基位置和下一个碱基位置之间有缺失片段。整数表示插入片段大小,后面缺失的碱基。

seq3 200 A 20 ,,,,,..,.-4CACC.-4CACC....,.,,.^~. ==<<<<<<<<<<<::<;2<<

samtools mpileup

bam文件转换格式为pileup

samtools mpileup -f Reference.fa test.sort.bam -o test.pileup

猜你喜欢

转载自blog.csdn.net/weixin_34189116/article/details/86888050
今日推荐