如何划窗统计测序数据的reads数(depth)

版权声明:作者:吴伸伸 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 https://blog.csdn.net/shenshenwu666/article/details/80936374

      对于公司送回来的测序数据,我们通常需要进行质检,检查数据是否符合我们要求的测序深度,在质检中,统计各个位点的depth就显得尤为重要。

      最常见的统计depth的方法就是使用samtools depth,但是这个方法仅仅局限于对单个位点进行depth进行统计,那么有时候我么你需要使用滑动窗口来对区间进行统计,这样可以观察在整条染色体上测序深度的变化趋势,从而发现已经问题,比如CNV等,这个时候我推荐另一种方法bedtools coverage.

      具体使用方法:

      1. bedtools makewindows -g genome.txt -w 10000000 -s 1000000 > windows.bed

    #bedtools makewindows用来自动生成划窗区间。-g genome.txt是要划分的基因组,格式为两列:染色体、染色体长度;-w 10000000为窗口大小为10M;-s 1000000为步长为1M,即窗口在染色体上每次向右平移1M的距离;windows.bed为输出文件,格式为三列:染色体、区间开始位点、区间结束位点。

    



      2. bedtools coverage -a windows.bed -b xxx.sort.bam > xxx.depth.txt

    #bedtools coverage对划分好的每个滑动窗口进行reads数(depth)的统计。-a windows为上一步划分好的区间;-b xxx.sort.bam为测序数据mapping到参考基因组的比对文件;xxx.depth.txt为统计结果的输出文件,格式为7列:染色体、区间起始位点、区间结束位点、该区间内的reads数、该区间内的碱基数、区间大小、该区间的平均覆盖度

    #关于xxx.sort.bam文件的几点说明

    1. 一般将测序数据mapping到参考基因组之后的输出文件为sam文件格式,需要先用samtools view -bS xxx.sam > xxx.bam转换为bam格式

    2.xxx.bam还需要进行排序和建立索引才能用于后续的统计:

    samtools sort xxx.bam xxx.sort   ##输出结果为xxx.sort.bam

    samtools index xxx.sort.bam      ##输出结果为xxx.sort.bam.bai

猜你喜欢

转载自blog.csdn.net/shenshenwu666/article/details/80936374