生信自学笔记(十二):基因组序列与基因预测

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jining11/article/details/82498527

基因组

在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,或者说是一套染色体中完整的DNA序列。

  • 对于单倍体细胞,基因组是指编码序列和非编码序列在内的全部DNA分子。
  • 对于有性生殖个体,通常是指一套常染色体和两种性染色体的序列。
  • 基因组包括核基因组、线粒体基因染色体中心li组和叶绿体基因组等。
  • 一般而言,染色体中心粒附近重复序列多而编码序列少。
  • 一个蛋白质编码基因往往包含多个外显子或蛋白质编码序列,外显子被非编码的内含子隔开。
  • 许多非编码序列包含假基因(尤其是人类基因组),它们原来是编码序列,但由于进化过程中碱基变异等,丧失了编码蛋白质的功能。
  • 微生物基因组往往要小些,其重复序列比例明显不高。
  • 玉米基因组转座子类重复序列大量增加,基因组重复序列比例达85%以上。

基因预测

基因组DNA序列上,一个蛋白质编码基因包含编码和非编码序列,其编码序列(外显子)被非编码区(内含子)隔断,蛋白质编码区(CDS)包括大部分外显子序列(除了两端非翻译区域,即UTR序列)。 从蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(ORF)。 基因表达后被转录成前体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。 假基因是与功能性基因密切相关的DNA 序列,由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。
举维基的一个例子来理解一下ORF:
一段5’-UCUAAAGGUCCA-3’序列。此序列共有3种读取法:
1. UCU AAA GGU CCA
2. CUA AAG GUC
3. UAA AGG UCC
由于UAA为终止编码,因此第三种读取法不具编译出蛋白质的潜力,故只有前两者为开放阅读框架。

所谓基因预测(genefinding)或注释(annotation)是指基因结构预测,主要预测DNA序列
中编码蛋白质的区域(CDS), 抽象一点来说就是,识别DNA序列上的具有生物学特征的片段。

  • 真核生物基因往往基因结构复杂,基因组上基因密度很低,存在大量交替剪切和假基因等。
  • 原核生物基因结构简单,基因密度大,但其基因短,存在重叠基因等情况。

基因注释方法主要包括两大类:一个是同源比对方法,另一个是从头预测方法。 这两种方法在实际应用中往往配合使用,即综合两种方法的预测结果,给出最终的预测结果。

同源比对

同源比对方法(homology method)是利用近缘种已知基因进行序列比对,发现同源序列,并结合基因信号(外显子内含子剪切信号、基因起始和终止密码子等) 进行基因结构预测。 另外,通过测定目标物种转录组(RNA-seq)或其他基因表达序列(如早期的EST序列),可以获得大量目标物种转录本序列,将这些表达序列定位到基因组上,并结合基因信号,同样可以辅助基因编码区预测。

从头预测

根据编码区统计特征和基因信号进行基因结构的预测。编码区特征的统计测验需要基于一定的基
因模型。 从头预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预测(如CpG岛、最长ORF法等)。CpG岛 (CpG island)一词是用来描述基因组中的一部分DNA序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过 4 种碱基总和的 50%,每 10个核苷酸约出现一次双核苷酸序列CG。 具有这种特点的序列仅占基因组DNA总量的10%左右。 从已知的DNA序列统计发现,几乎所有的看家基因(housekeeping gene,指在生物体内所有细胞中都表达,并且为维持细胞基本生命活动所需而时刻都在表达的高度保守的基因)及约40%的组织特异性基因的5′末端含有CpG岛,其序列可能落在基因转录的启动子及第一个外显子中。 因此,在大规模基因测序中,如发现一个CpG岛,则预示可能在此存在基因。 后来,一些其他方法陆续被提出,如隐马尔可夫模型(HMM)、神经网络(NN)、动态规划法等。

衡量算法优劣

某一算法的优劣可以通过一定的标准,如敏感性(sensitive,真实外显子被准确预测的比例)和特异性(specifity,:预测为外显子的序列确为外显子的比例)来衡量。 假设待测序列中有M条序列是基因序列,而剩余的为非基因序列。 我们用某一程序对该序列进行预测,共预测出N条基因序列,而这N条序列中有K条确实为基因(即预测准确)。 则敏感性定义为K/M,它表示程序预测的能力大小;特异性定义为K/N,它表示程序预测结果的可靠程度。 敏感
性和特异性往往是一对矛盾。

全基因组预测

在基因预测之前,一般首先会对全基因组进行重复序列鉴定和屏蔽。 真核生物基因组中存在较高比例的重复序列。 例如人类基因组上至少有 50%的重复区域。 重复序列的存在对基因组注释的准确性会产生较大的影响,因此通常重复序列的鉴定是基因组注释的第一步。 重复序列保守性很差,因而对不同物种都需构建该物种的重复序列库。 由于有些基因在该物种中本身拷贝数很高(如组蛋白、维管蛋白等),容易误将这些基因上的部分片断当作重复序列,导致最终无法预测出这些基因或基因结构预测不完整。 因此,在构建的目标物种重复序列库中应排除掉这部分序列,即去除与已知物种基因相似性高的序列。 在获得重复序列库后,可利用这部分序列将基因组中存在重复序列相似片段或区域“屏蔽” (mask)。 所谓屏蔽就是将原序列中的“A、T、C、G”用“N”或小写的“a、t、c、g” 表示,这样后续的基因预测软件将这部分序列按重复序列处理。 对基因组中重复序列处理的好坏将直接影响后续基因注释的质量。

完成注释后,会获得很多重叠或者有出入的基因结构。 这时,可以通过基因注释整合工具,获得一个完整且较为准确的注释结果。目前使用较主流的整合工具为EVM和GLEAN。 这类软件可以从各种来源的结构注释结果中选取最为可能的外显子,然后将它们合并整合成完整的基因结构。 此外,Maker2是一种将重复序列注释屏蔽、基因注释、注释结果整合等步骤综合一体的软件,目前也越来越被广泛运用于各种基因组注释项目。

经过上述步骤注释出来的基因集,通常还存在一定数量低质量的基因预测结果(假基因、ORF太短等),需要再进行人工筛选。 一般会过滤掉编码蛋白长度小于50个氨基酸、编码不完整、基因长度过长、基因中间存在大量‘N’等情况的基因。

猜你喜欢

转载自blog.csdn.net/jining11/article/details/82498527