蛋白质结构预测准确率&发展情况

一. 二级结构预测

蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。

因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和识别问题。蛋白质二级结构的组成规律性比较强,所有蛋白质中约85%的氨基酸残基处于三种基本二级结构状态(a螺旋、b折叠和转角),并且各种二级结构非均匀地分布在蛋白质中。有些蛋白质中含有大量的a螺旋,如血红蛋白和肌红蛋白;而另外一些蛋白质中则不含或者仅含很少的a螺旋,如铁氧蛋白;有些蛋白质的二级结构以b折叠为主,如免疫球蛋白。

二级结构预测的目标是判断每一个氨基酸残基是否处于a螺旋、b折叠、转角(或其它状态)之一的二级结构态,即三态。

至今人们已经发展了几十种预测方法。

蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代:
第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。

第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法

第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都低于70%,而对b折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是b折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象,只用局部信息的二级结构预测方法,其准确率不会有太大的提高。

第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对b折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。

一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而,有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。

目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(a,b,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。

早期人们建立的多种二级结构的预测方法,都是建立在假定蛋白质的二级结构主要是由局部氨基酸所决定,准确率都不超过65%。随着蛋白质进化信息、长程相互作用信息及全局信息的加入,蛋白质二级结构预测的准确率有了较大的提高。由于序列信息和结构信息的不断增长,通过统计得到的蛋白质序列与二级结构关系及规律更加全面,同时也由于预测方法的不断改进,使得蛋白质二级结构预测的准确率也在不断地提高,

预测二级结构的准确率已经可以达到80%以上

。一般认为,如果蛋白质二级结构预测准确率足够高的话,就可以基本准确地预测一个蛋白质分子的三维空间结构。但目前所取得的成果还难以达到这一目标。虽然二级结构的预测准确率还不能满足准确推测蛋白质分子三维空间结构的要求,但其预测结果仍能提供许多有用的结构信息,尤其当蛋白质的结构尚未解出时更是如此。通过对多种预测结果的综合分析,再结合光谱实验数据,往往可以提高预测的准确度。由于二级结构预测很好地反映了局域序列片段的结构倾向性,因此在进行全新蛋白质设计时,常根据二级结构预测结果来设计二级结构单元。

二. 三级结构预测

对蛋白质结构预测的同源模型化方法线索化方法从头预测方法进行实验测试和评价,结果表明:
(1)在同源模型化方法中,得到一个好的序列比对是该方法的关键。当目标蛋白质与模板等同部分超过60%时,完全可以找到正确的比对。然而,如果序列相似程度只有20-25%,则很难找到正确的比对。如果相似程度低于20%,则同源模型化方法几乎无能为力,因为在这种情况下,很难或无法找到合适的模板。
(2)对于线索化方法如果能够找到同一家族远程同源蛋白质,则可以获得比较好的预测结果。如果找到的模板属于不同的家族,则预测准确性难以保证。
(3)对于
从头预测方法
还难以产生准确的预测结构。在三维结构预测方面,目前有待深入研究预测方法。根据同源性所得到的结构模型一般精度达到原子分辨率,对于SWISS-PROT数据库中的序列,大约三分之一能够得到粗糙的结构模型。

往往对于三级结构预测,只能通过与已知结构蛋白序列同源性比对来完成。这一方法已是目前进行三级结构预测的最准确方法。但是这一方法并不总是奏效,

因为大约有80%的已知蛋白质序列找不到与之相似的已知结构的蛋白质序列。

不幸的是,许多模型在环区的位置标定方面存在着较大的误差。线索化技术通过搜索远程同源蛋白质能够大大地提高这个比例,但是,对于大规模的序列分析,线索化技术还仍然不是太可靠。对于一个未知结构的蛋白质,若没有其同源蛋白质的结构,则该蛋白质结构信息的唯一来源就是实验,或者通过从头算方法进行结构预测。即使在不远的将来我们会通过实验得到更多的蛋白质结构,但有一类蛋白质仍然对实验测定方法提出挑战,这就是膜蛋白。其中最大的障碍是这类蛋白质不能结晶,并且,即使用核磁共振NMR技术也难以测定其结构。因此,对于这类蛋白质,结构预测方法就显得格外重要。

三. 四级结构预测

猜你喜欢

转载自blog.csdn.net/weixin_43202635/article/details/82980307
今日推荐