蛋白质结构预测

一、题目要求

分别三种不同的方法（如采用基于信息论的GOR IV方法，Jpred，PSIPRED，SOPMA和神经网络方法PHD/Jnet（具体软件自己选））对给定蛋白序列做结构预测，结果输出并注释。重点说明不同方法预测结果有哪些不一样？为什么？
序列文件：model_sequence.fasta

gi|19924159|ref|NP_003787.2| unconventional prefoldin RPB5 interactor 1 isoform a [Homo sapiens]
MEAPTVETPPDPSPPSAPAPALVPLRAPDVARLREEQEKVVTNCQERIQHWKKVDNDYNALRERLSTLPD
KLSYNIMVPFGPFAFMPGKLVHTNEVTVLLGDNWFAKCSAKQAVGLVEHRKEHVRKTIDDLKKVMKNFES
RVEFTEDLQKMSDAAGDIVDIREEIKCDFEFKAKHRIAHKPHSKPKTSDIFEADIANDVKSKDLLADKEL
WARLEELERQEELLGELDSKPDTVIANGEDTTSSEEEKEDRNTNVNAMHQVTDSHTPCHKDVASSEPFSG
QVNSQLNCSVNGSSSYHSDDDDDDDDDDDDDNIDDDDGDNDHEALGVGDNSIPTIYFSHTVEPKRVRINT
GKNTTLKFSEKKEEAKRKRKNSTGSGHSAQELPTIRTPADIYRAFVDVVNGEYVPRKSILKSRSRENSVC
SDTSESSAAEFDDRRGVLRSISCEEATCSDTSESILEEEPQENQKKLLPLSVTPEAFSGTVIEKEFVSPS
LTPPPAIAHPALPTIPERKEVLLEASEETGKRVSKFKAARLQQKD

二、操作过程记录及结果

Jpred预测

首先，进入Jpred4输入序列，可以发现PDB数据库内存在已知结构，继续预测。
Jpred4 PDB结构
图表 1PDB结构

图表 2Jpred结果
红色的是Helix，绿色的是βSheet，其他是无规则卷曲。
Helix较多。

GOR IV预测

图表 3GOR IV结果
该序列主要含有Alpha helix螺旋，Extended strand延伸链和Random coil无规卷曲。其中Alpha helix有199个氨基酸，占37.20%；Extended strand有58个氨基酸，占10.84%；Random coil有278个氨基酸，占51.96%。结果除了有些许细节和Jpred预测不同，无论是三种基本结构的所占比例，还是位置，大体上和Jpred相似。
下图为打分结果，Heilx蓝色；Coil紫色；Sheet红色。大部分还是Helix。

图表 4打分图

SOPMA预测

图表 5SOPMA结果
该序列主要含有Alpha helix螺旋，Extended strand延伸链，Beta turn折叠和Random coil无规卷曲。其中Alpha helix有219个氨基酸，占40.93%；Extended strand有64个氨基酸，占11.96%；Beta turn有33个氨基酸，占6.17%；Random coil有219个氨基酸，占40.93%。Alpha helix、Extended strand和Random coil贯穿于整个氨基酸链，Beta turn只有一点点，散布在Helix附近。
下图为打分结果，Heilx蓝色；Coil紫色；Sheet红色；Beta turn绿色。大部分还是Helix。

三、结果分析与讨论

JPred

JPred一开始使用的算法是大规模的比对分析，后来使用了神经网络方法
JPred文献

GOR

是一种基于信息论和贝叶斯统计学的方法，方法的名称以三个发明人姓名的第一个字母组合而成（Garnier, Osguthorpe, Robson）。GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响。

SOPMA

使用独特的方法进行蛋白质二级结构预测。它不是用一种，而是5种相互独立的方法进行预测，并将结果汇集整理成一个“一致预测结果”。这5种方法包括：Garnier-Gibrat-Robson（GOR）方法、Levin同源预测方法、双重预测方法、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法。简单的说，SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库，库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。
作者自述：Recently a new method called the self-optimized prediction method (SOPM) has been described to improve the success rate in the prediction of the secondary structure of proteins. In this paper we report improvements brought about by predicting all the sequences of a set of aligned proteins belonging to the same family. This improved SOPM method (SOPMA) correctly predicts 69.5% of amino acids for a three-state description of the secondary structure (alpha-helix, beta-sheet and coil) in a whole database containing 126 chains of non-homologous (less than 25% identity) proteins. Joint prediction with SOPMA and a neural networks method (PHD) correctly predicts 82.2% of residues for 74% of co-predicted amino acids. Predictions are available by Email to [email protected] or on a Web page (http://www.ibcp.fr/predict.html).
SOPMA文献

总结

综上，三种方法预测出来结果大体相似，都测出无规卷曲所占的二级结构较高，小部分细微差异是由算法内部的原理和运行细节造成。主要体现在：各个成分的比例有所不同。并且其中Jpred看不出来结构的具体细节，比如没有延伸链，还有就是SOPMA预测出了β转角，预测出的结构类型是最丰富的。GOR还没有β转角。

而算法部分，目前大部分蛋白质二级结构预测都采用了神经网络，因此需要花费一些功夫，找到不使用神经网络的预测算法
上述三种算法简介：
- JPred：神经网络
- GOR：信息论和贝叶斯统计学
- SOPMA：多种独立的算法进行预测，然后整合结果