4️⃣ 核酸序列特征分析(2):CpG岛预测

序列比对和序列特征分析总目录
  • 哺乳动物基因组中5%~10%是CpG(二核苷酸),若CpG聚集则称CpG岛,其中75%左右呈甲基化状态,叫甲基化的CpG(mCpG)。
  • 人类和小鼠分别有55.9%和46.9%的基因与CpG岛有密切关系。CpG岛经常在脊椎动物基因的5'区被发现,主要位于基因的启动子和第一外显子区域,这一特点有助于基因识别
  • CpG岛是基因转录活性的调控因素之一,CpG岛甲基化异常常伴随疾病发生。

如何识别CpG岛

GC含量:CpG岛的GC含量达到55%
二核苷酸的出现率:CpG二核苷酸的出现率(观测值与期望值的比率)达到0.65
序列长度:长度不少于500bp

传统的CpG岛识别方法就是基于以上三条。
另外还有一种主要的方式基于统计学特征的识别方法,如马尔科夫链和隐马尔科夫链
CpG岛是200bp或更长的DNA序列,GC含量较高,一般富集在人类基因组组启动子区和起始外显子区,在这个区段容易出现DNA甲基化,从而对基因表达进行调控。

推荐工具EMBOSS的CpGPlot

7976641-152904fb65d8be99.png

结果如下


7976641-10806ba540624b6a.png

7976641-9971ac0135989d80.png

满足
Observed/Expected ratio > 0.60
Percent C + Percent G > 50.00
Length > 200
三个条件的CpG显示在下方。

可以看出,该序列可能存在6个CpG岛。位置如图中所示。

其他

softberry

猜你喜欢

转载自blog.csdn.net/weixin_33910385/article/details/86937102