Bam文件去重复

RNA-seq一般不去重复
ChIP-seq一般去重复
call SNP一般去重复

还需参考起始量和PCR扩增数判断是否去重复。reads mapping覆盖均匀度可以判断是否需要去重复。

PCR去重工具首选Picard

根源上解决去重复问题:起始量高,循环数少,reads能长不短,能双端不单端

PCR重复的危害

理论上不同序列在PCR扩增时,扩增的倍数应该相同。但是由于聚合酶的偏好性,PCR扩增次数过多的情况下,会导致一些序列持续扩增,而另一些序列扩增到一定程度后便不再进行,也就是常说的PCR偏好性

这种情况对于定量分析(如ChIP-seq),会造成严重影响。此外,PCR扩增循环数过多,会出现一些扩增偏差,进而影响一些突变识别(比如call SNP)的置信度。

因此,在一些NGS分析流程中需要考虑去除PCR重复。但这并不代表可以无脑去除。

测序所得到的reads是由于超声波或者酶切断裂得到的,这些reads比对到基因组上的位置是完全随机。那么两个reads比对到相同位置的概率是非常低的。如果两个reads比对情况相同或者极其相似,则很有可能是由于PCR重复所导致的。而我们常用的去重工具主要也是遵循这一思想。

Guess you like

Origin blog.csdn.net/geekfocus/article/details/120063887
BAM
BAM
BAM
BAM
BAM
BAM
BAM