DNA甲基化分析----------甲基化比对软件专题(BSMAP)

  在上个笔记中,我们主要介绍了现在进行DNA甲基化比对的策略和方法中的第一种以bismark为代表的Three Letter Alignment方法:DNA甲基化分析----------甲基化比对软件专题(Bismark),那么我们今天就来就另一种比对方法Wild Card Alignment进行初步的了解~
-------------------------------------------------------分割君上线-------------------------------------------
  那么我们肯定会好奇,什么是Wild Card Alignment? 原理是什么样的呢?如何实现呢?我们首先来看看需要解决的问题:

1:因为亚硫酸氢盐处理,导致序列的正链和负链并不互补,因为亚硫酸氢盐的转化只发生在未甲基化的Cs上。
2:因为未甲基化的C在BS转化的过程中全部都变成了T,导致了测序后的C比例明显减少了。
3:第三,C到T的mapping是不对称的。亚硫酸氢盐转化后的T可以映射到参考基因组中的C或T,但是C只能mapping到C。

为了解决这些问题,开发者们想出的策略,具体出处见原文献

  策略一:为了提高精度,BSMAP是基于更高效的哈希表seed算法,它索引所有可能的k-mers的引用,称为种子,只搜索种子与部分读取完全匹配的位置。

步骤一:建立全基因组的index,主要是为了记录下参考基因组的位置,并且知道所有的C的位置的信息。
步骤二:然后选取seed。
步骤三:将seed进行BS转化,列出所有的可能。
步骤四:将测序出来的reads进行序列比对,然后只选出最佳匹配出的结果 。
步骤五:将对应的key-value(就是位置信息)记录下来。

14720037-f9620b570687ab36.png
实现步骤

  策略二:以最佳匹配的seed为基础进行链延伸,然后进行序列比对。然后根据分数匹配看看是match还是missmatch。(这里有一个打分编码的系统表。)
14720037-865af2301bb0d014.png
打分结果

14720037-a6ad71bace846ab0.png
打分编码表

----------------------------------------------------------分割线---------------------------------------------

  那么Wild Card Alignment方法是什么呢?那么mapping的结果怎么看呢?

  开发者们利用了一种碱基Y来替换成了参考基因组上的C(所有的C,包括甲基化和未甲基化的的C),然后测序后C或者是T都可以匹配的上Y。我们来看一个小栗子:


14720037-0fc7b107429fa575.png
原始的基因组序列
14720037-e114f7236d24b737.png
BS转化的结果
14720037-82abf32503cb9efa.png
Y转化后的基因序列
14720037-6eec46b7cde9cc02.png
比对的序列情况

(PS:比对的策略的还是和三碱基法类似,如果一个reads可以比对到多个位置,那么直接舍去。)


14720037-40c31be4113633d5.png
mapping的结果
Summary:

含有甲基化胞嘧啶的reads可以含有四种碱基,而含有非甲基化胞嘧啶的reads可能只含有三种碱基,从而导致序列特异性的降低,使含有非甲基化胞嘧啶的reads比对率降低,在计算甲基化水平时引入偏倚,造成甲基化水平的升高,但是其整体的比对率高于three-letter法。

Reference:
1:Analysing and interpreting DNA methylation data
https://www.nature.com/articles/nrg3273
2:BSMAP: whole genome bisulfite sequence MAPping program
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2724425/

猜你喜欢

转载自blog.csdn.net/weixin_34266504/article/details/87223074
今日推荐