iDNAProt-ES: Identifcation of DNA-binding Proteins Using Evolutionary and Structural Features 论文阅读笔记

iDNAProt-ES 一种DNA结合蛋白质的预测方法

introduction:

part1: 

  1. DNA结合蛋白质的实验费时间,所以用计算机来做。
  2. 利用基于序列的基于进化和结构的蛋白质特征来鉴定它们的DNA结合功能。
  3. 我们使用递归特征消除来提取一组最佳特征,并使用带有线性内核的支持向量机(SVM)来训练它们以选择最终模型。

part2:

  1. DNA结合蛋白是与DNA结合并相互作用的蛋白质。
  2. DNA结合蛋白在DNA的结构组成和基因调控中起重要作用。
  3. 非特异性结构蛋白通常有助于组织和压缩染色体DNA。
  4. 另一个重要的作用是调节和影响各种细胞过程,如转录,DNA复制,DNA重组,修复和修饰。

part3: 

  1. 许多实验方法被用于鉴定DNA结合蛋白:flter结合试验,遗传分析,X射线晶体学,微阵列染色质免疫沉淀,NMR等。这些
    实验方法既昂贵又耗时
  2. 面对后基因组时代产生的新蛋白质序列的食物,非常需要开发自动计算预测方法,以快速有效地鉴定和表征DNA结合蛋白。

part4: 

  1. 已经用于预测DNA结合蛋白的计算方法可以大致分为两组:基于结构的方法和基于序列的方法。
  2. 在大多数情况下,DNA结合蛋白鉴定被公式化为监督学习环境中的二元分类问题。
  3. 基于序列的方法仅依赖于从训练数据提取的基于序列的信息构建,其中基于结构的方法也利用基于结构的特征。
  4. 在结构中,结构基序和静电势用于预测DNA结合蛋白。
  5. iDBPs服务器被提出用于使用的全局特征,如平均表面静电势,偶极矩和基于簇的氨基酸保守模式。 TASSER生成的低分辨率α-碳模型预测DNA结合蛋白。
  6. 基于结构的方法的主要困难之一是大多数蛋白质的结构是未知的。
  7. 然而,结构信息如图案的存在和其他信息在结合蛋白的DNA识别中是非常关键的。
  8. 因此,我们假设即使是蛋白质结构的部分信息也可以在鉴定其结合DNA的功能中发挥非常重要的作用。

part5:

  1. 许多机器学习算法用于解决文献中的这个问题。 其中包括:Logistic回归,隐马尔可夫模型,随机森林,人工神经网络,支持向量机,朴素贝叶斯类等。
  2. 使用来自PSSM profles的进化信息和支持向量机,并建立了一个名为DNABinder的Web服务器。
  3. 他们将基于PSSM的特征的有效性与氨基酸组成,二肽组成和4-部分氨基酸组成作为特征进行了比较。

part6:

  1. DNA-Prot是另一款提出的软件。
  2. 他们使用氨基酸组成,理化性质和二级结构信息作为特征,并使用随机森林分类器训练他们的模型。
  3. 提出了一个名为iDNA-Prot的网络服务器,他们使用灰色模型将氨基酸序列作为特征纳入假氨基酸组成的一般形式,并使用随机森林分类器训练他们的模型。
  4. 由Liu等人将氨基酸距离 - 对偶联信息和氨基酸减少的字母表序列结合到一般形式的假氨基酸组成中。
  5. 他们还提供了一个名为iDNA-Prot | dis的免费网络服务器。 到目前为止最成功的预测方法是DBPPred提出的。他们使用基于包装器的最佳第一特征选择技术来选择最佳特征集。
  6. 他们使用基于氨基酸组成,PSSM评分,二级结构和相对溶剂可及性的特征,并使用随机森林和高斯朴素贝叶斯分类器训练他们的模型。

part7:

  1. Liu等人将iDNAPro-PseAAC作为Web服务器提出。 他们使用进化信息作为输入功能。
  2. 他们使用基于轮廓的蛋白质表示,并使用线性判别分析(LDA)选择了一组23个最佳特征。 他们的模型使用支持向量机(SVM)分类器进行训练。
  3. 他们用SVM训练的方法在文献中称为Kmer1 + ACC。 他们还开发了另一个名为PseDNA-Pro的服务器。PseDNA-Pro利用氨基酸组成,假氨基酸组成和物理化学距离转换等特征来训练其模型。
  4. 通过对局部伪位置特定评分矩阵特征使用随机森林分类器提出Local-DPP。

part8:

  1. 计算生物学中最重要但也是最困难的问题之一是如何用离散模型或向量表达生物序列,但仍保持相当大的序列顺序信息或关键模式特征。这是因为所有现有的机器学习算法只能处理矢量而不能处理序列样本,如最近的综述所阐明的那样
  2. 然而,在离散模型中定义的向量可能完全丢失所有序列模式信息。
  3. 为了避免完全丧失蛋白质的序列模式信息,提出了假氨基酸组成或PseAAC。
  4. 由于它已被广泛和越来越多地使用,最近建立了三种强大的开放式软件,称为“PseAAC-Builder”,“propy”和“PseAAC-General”:前两种用于生成各种模式的Chou特殊PseAAC;而第三个是Chou的一般PseAAC,不仅包括蛋白质特征向量的所有特殊模式,还包括更高级别的特征向量,如“功能域”模式,“基因本体”模式和“顺序进化”或 “PSSM”模式。
  5. 受到使用PseAAC处理蛋白质或肽序列的成功的鼓舞,开发了四种称为“PseKNC”,“PseKNC-General”,“repDNA”和“repRNA”的网络服务器,同样用于生成DNA / RNA序列的各种特征向量 。
  6. 特别是,最近建立了一个非常强大的Web服务器,称为Pse-in-One,可用于根据用户研究的需要生成蛋白质或肽和DNA或RNA序列的任何所需特征向量。
  7. 在目前的研究中,我们将使用来自进化和结构信息的一般PseAAC的14种不同模式来鉴定DNA结合蛋白。

part9:

  1. 正如最近一系列符合周氏五步规则的出版物所做的那样,为了建立一个真正有用的基于序列的生物系统统计预测器,我们应遵循以下五个指导原则:
  • 构建或选择有效的基准数据集来训练和测试预测器;
  • 用有效的数学表达式表示生物序列样本,该数学表达式能够真实地反映它们与待预测目标的内在相关性;
  • 引入或开发一种强大的算法来进行预测;
  • 正确执行交叉验证测试,客观地评估预测器的预期准确性;
  • 为公众可访问的预测器建立用户友好的Web服务器。

    2.在本文中,提出了iDNAProt-ES,使用进化和结构特征鉴定DNA结合蛋白。

    3.在论文提出的方法中,已经从基于序列的进化信息和给定蛋白质的结构信息导出了许多新特征,以训练具有线性核的SVM分类器。

    4.我们使用递归特征消除技术来减少特征的数量并导出用于DNA结合蛋白预测的最佳特征集。

Results and Discussion

所有方法都是使用Python3.4版本在Python语言中实现的,并且使用Python的Scikit-learn库来实现机器学习算法。 所有实验均在联合国际大学CITS提供的计算机上进行。 每个实验进行50次,仅进行平均值报告为结果。

 Efect of Feature Selection:

  1. 在本节中,将展示我们使用的特征选择算法的效果。
  2. 对于这个实验,我们在两个数据集上使用10倍交叉验证,以使用递归特征消除技术来获得最佳特征集。
  3. 我们使用两个SVM内核的递归特征消除技术来改变25 ... 100的特征数量:sigmoid和linear。
  4. 当缩减特征的数量设置为86时,发现最高精度。
  5. 在这里,我们也展示了用粗体字体实现的最佳值。 我们可以很容易地注意到,递归特征消除技术是实验中使用的特征消除技术中最好的。

Efect of Classifer Selection:

  1. 为了证明我们算法的分类器选择合理,我们使用10倍交叉验证在基准数据集上运行了另一组实验。
  2. 在实验中测试了几种分类器:具有线性核的SVM,具有径向基函数(RBF)核的SVM,具有自定义核函数的SVM,随机森林分类器,朴素贝叶斯分类器和Logistic回归分类器。
  3. 最接近线性内核的竞争者是物流回归分类器和带RBF内核的SVM。 我们还在图4中显示了该实验的ROC曲线。

Web Server Implementation:

  1. 为了使预测器iDNAProt-ES可以免费使用和测试,我们实现了一个Web服务器。
  2. 此Web应用程序可免费使用:http://brl.uiu.ac.bd/iDNAProt-ES/。
  3. 这是一个非常易于使用的网站,这里的模型使用基准数据集进行训练。
  4. 为了使用该位点鉴定DNA结合蛋白,必须提供两个输入文件:PSI-BLAST生成的PSSM文件和SPIDER2生成的PSD文件。
  5. 将这些文件上传到iDNAProt-ES后,将提取特征并遵循类似的程序,如图5所示。

Materials and Methods

  1.  为了建立一个新的特征集和良好的预测器,我们首先收集了两个基准数据集。
  2. 然后我们从能够区分DNA结合蛋白的数据集中提取特征,从全局特征集开发减少特征的列表,这有助于提高预测的预测准确性,并选择和开发强大的分类算法来执行预测。
  3. 我们最终进行了交叉验证测试,以评估预测器的准确性。
  4. 我们提出的方法iDNAProt-ES的框架如图5所示。预测框架中有两个阶段:训练阶段和预测阶段。
  5. 在训练阶段,首先选择训练数据集。接下来,来自训练数据集的每个蛋白质序列然后被传递到PSI-BLAST和SPIDER3软件,其分别提供两个输出文件PSSM和SPD3。
  6. PSSM文件负责进化信息,SPD3负责结构信息。
  7. 然后将两个文件传递给iDNAProt-ES特征提取器,它提取了14组特征。这14个功能集总共包含1548个子功能。 请注意,文献中提供了从PSSM文件中提取特征的工具和应用程序服务器。然后,将来自特征提取方法的所有这些提取的特征(1548)传递到iDNAProt-ES特征选择器,以减少特征以提高预测精度。
  8. 在预测阶段,iDNAProt-ES首先查询蛋白质序列并传递给PSI-BLAST和SPIDER3,分别产生两个输出文件PSSM和SPD3,类似于训练阶段。然后,iDNAProt-ES的特征提取器和特征选择器使用两个文件。
  9. 在训练阶段将减少的特征传递给先前保存的模型以预测蛋白质是否是DNA结合的。 与训练阶段相比,这些阶段花费的时间非常短。

Datasets:
我们需要一组可靠的基准数据集,以便使用合适的分类算法和特征集开发有效的预测器。 任何数据集都包含正样本和负样本,可以正式表示如下:

  1. 这里S +代表一组阳性实例或DNA结合蛋白,S-代表阴性样品或非DNA结合蛋白。
  2. 在本文中,我们使用两个数据集,这些数据集在文献中广泛用于DNA结合蛋白预测问题.
  3. 我们在本文中引入了第一个数据集,我们称之为基准数据集。
  4. 使用高级搜索界面,使用mmCIF关键词“DNA结合蛋白”从最新版本的蛋白质数据库(PDB)中提取DNA结合蛋白。
  5. 为了建立一个高质量和非冗余的基准,他们首先删除了长度小于50的所有序列,然后用unkonwn氨基酸去除所有蛋白质序列(在序列中用非标准符号“X”或“Z”标识)。
  6. 最后,他们使用PISCES 40去除了所有具有超过25%序列相似性的蛋白质。这样,它们保证了这些基准中蛋白质之间没有或很少有结构重叠。
  7. 因此,他们构建的基准数据集由525个DNA结合蛋白和550个非DNA结合蛋白组成。
  8. 他们以下列方式指定DNA结合蛋白和非DNA结合蛋白。
  9. 他们首先指定来自不同结构域的蛋白质,并将具有DNA结合位点的蛋白质标记为DNA结合蛋白质,以及没有非DNA结合蛋白质的蛋白质标记蛋白质。
  10. 注意,该基准的输入是蛋白质而不是结合结构域,并且目标是发现给定蛋白质是否具有任何被称为DNA结合蛋白的结合位点,其被称为非DNA结合蛋白。
  11. 重要的是要强调具有非常低的序列相似性(小于25%)且具有至少50个氨基酸且没有未知残基的蛋白质保证没有或非常低的域重叠.
  12. 用作独立测试数据集的第二个基准也由Lou等人构建。我们使用这个数据集,参考PDB186,能够直接将我们的结果与文献中关于独立测试集的先前研究进行比较。 在数据集中,93种蛋白质是DNA结合蛋白质,93种蛋白质是非DNA结合蛋白质。
  13. 他们也使用类似的严格标准来提取此基准。 他们首先去除了少于60个氨基酸长度的蛋白质,并去除那些具有未知('X'或'Z')残基的蛋白质。
  14. 然后,他们使用NCBI的BLASTCLUST53从数据集中去除那些具有超过25%序列同一性的蛋白质。

Feature Extraction:

  1. 在DNA结合蛋白预测的文献中使用不同类型的特征提取方法。 其中包括:伪位置特定评分矩阵特征,周提出的假氨基酸组成和物理化学距离变换等。
  2. 在本研究中,我们探索嵌入蛋白质序列中的进化和结构信息作为特征。
  3. 蛋白质序列用于获取由PSI-BLAST生成的PSSM(位置特异性评分矩阵)文件提取的进化信息
  4. 除此之外,结构信息是从SPIDER2软件的spd文件和输出中提取的。 以下部分详细介绍了特征提取。
  5. 基于PSSM的功能。 我们使用由NCBI提供的非冗余数据库(nr)使用PSI-BLAST算法的三次迭代生成的来自PSSM文件的进化信息。
  6. E的切割阈值设定为0.001。 PSSM fle返回每个位置上给定蛋白质的取代概率的对数概率,对齐所有可能的氨基酸符号。
  7. 这是一个L×20矩阵,我们在本文中将其称为PSSM矩阵。 给出由下列L氨基酸残基组成的蛋白质序列P:
  8. 由PSI-BLAST和矩阵M生成的频率分布toP可表示为:
  9. 其中20是标准氨基酸的数量; mi,j是表示在进化过程中出现在蛋白质P的序列位置j(j = 1,2,3,... L)中的氨基酸i(i = 1,2,...,20)的概率的目标频率。
  10. 我们首先使用蛋白质亚细胞定位中提出的程序使pssm矩阵标准化。在归一化之后,我们从归一化的PSSM矩阵生成了五组特征。我们将整个部分中的归一化矩阵表示为N,其是维度为L×20的二维矩阵。根据PSSM文件信息生成的特征在下面列举:
  • 氨基酸组成:PSSM文件用于产生共有序列。 通过在每个位置处取PSSM矩阵中具有最高取代概率或频率的氨基酸来构建共有序列。 然后氨基酸组合物计数每个氨基酸残基的出现并通过蛋白质序列的长度标准化。                     其中sj是蛋白质序列中的氨基酸,ai是20种不同氨基酸符号之一.
  • Dubchak的特点:这些特征以前用于蛋白质折叠识别和蛋白质亚细胞定位。 根据各种理化性质的极性,可溶性,疏水性等对氨基酸残基进行分组,并计算这些基团的组成,转变和分布。 特征向量的大小为105。
  • PSSM Bigram:PSSM bigram代表两个相邻氨基酸残基位置的转换概率。 这些特征以前用于解决蛋白质亚细胞定位和蛋白质折叠识别,并定义如下:
  • PSSM 1-lead Bigram:PSSM 1-lead二元组被定义为1个距离或分离处氨基酸残基位置的转换概率。 它可以正式定义为:
  • PSSM组成:通过获取PSSM矩阵的每列中的值的归一化总和来创建PSSM组成。 PSSM矩阵的每列代表20个氨基酸残基中的一个。 它被定义为:
  • PSSM自协方差:PSSM的自协方差是一种取决于距离因子DF的参数。 在我们使用的这项研究中,DF = 10.T特征被正式定义为:
  • PSSM分段分布:以前,提出的PSSM矩阵的分段分布被用作66中蛋白质的亚细胞定位的特征。 我们的想法是通过从第一行和最后一行开始逐列计算部分和,并迭代直到部分运行总和为总和的Fp%来逐列地计算PSSM矩阵中值的分布。 细节这个特征生成的过程可以在。本文中,我们使用Fp = 5,10,25。

基于SPIDER的功能。 我们使用SPIDER2免费提供的软件,提供每个氨基酸残基位置的可接触表面积,扭转角度,结构图案的信息。 然后,我们从SPIDER2提供的信息中提取一组新的特征作为SPD文件。 此处详细列出了特征提取:

  • 二级结构发生:蛋白质是蛋白质中三种类型的基序结构基序:α-螺旋(H),β-折叠(E)和无规卷曲(C)。 二级结构发生是微型酸残基位置中存在的每种类型的计数或频率。                              其中SSj是蛋白质序列的位置j处的结构基序,并且μi是3种不同基序符号之一。
  • 二级结构组成:该特征是通过噬菌体蛋白长度的长度归一化的二级结构基序发生。 这类似于氨基酸组成,除了在这里我们采用基序符号而不是氨基酸符号。                                                                其中SSj是蛋白质序列的位置j处的结构基序,并且μi是3种不同基序符号之一。
  • 可访问的表面积组成:可访问的表面积组成是可访问的表面区域的标准化总和,其定义为:
  • 扭转角度组成:对于四种不同类型的扭转角度:φ,ψ,τ和θ,我们首先将它们从角度角度转换为弧度,然后在每个残余位置处取角度的符号和余弦。 我们得到一个维数为L×8的矩阵。我们用T表示这个矩阵是扭转角的这个部分。 扭转角度组成定义如下:
  • 结构概率组成:氨基酸残基的每个位置的结构概率在spd3文件中给出,作为维数L×3的矩阵。我们用P表示它。结构概率组成被定义为:
  • 扭转角度Bigram:扭转角度的Bigram类似于PSSM矩阵,并定义为:
  • 结构概率Bigram:结构概率的二元组与PSSM矩阵类似,并定义为:
  • 扭转角度自协方差:此特征也来自扭转角度,定义如下:
  • 结构概率自协方差:此特征也来自结构概率,定义如下:

 Feature Selection:

  1. 由于提取的特征数量很大,我们应用特征减少来推导出用于DNA结合蛋白预测的最佳特征集。
  2. 以前有几种特征消除技术,如基于相关的特征子集选择方法,基于树的特征选择,最佳第一贪婪特征选择等。
  3. 在本文中,我们使用了第一个提出的递归特征消除(RFE)。该算法在算法1中描述为伪代码。
  4. 该算法使用基于后向相关的特征消除技术。 该算法以数据集D,分类器C和k作为参数的减少特征的数量开始。
  5. 然后使用生成的特征转换数据集。 继续该过程直到特征的数量等于k。

Description of the Classifer:

  1. 我们在我们的方法iDNAProt-ES中使用了支持向量机(SVM)作为分类器。 SVM构造分离超平面以最大化正负实例之间的边界。
  2. 超平面中的最近点称为支持向量。 SVM首先基于训练数据集构造超平面,然后将来自输入空间的输入矢量映射到更高维空间中的矢量,其中映射由核函数确定。
  3. 超平面中的最近点称为支持向量。 SVM首先基于训练数据集构造超平面,然后将来自输入空间的输入矢量映射到更高维空间中的矢量,其中映射由核函数确定。
  4. 训练的SVM可以基于输入载体的映射载体输出类别标签(在我们的例子中,DNA结合蛋白或非DNA结合蛋白)。
  5. 有许多流行的内核。 在本文中,我们将探讨如下所述的三个核函数:

Performance Evaluation:

  1. 评估新预测器的性能非常重要。 在文献中使用各种比较度量来评估预测器的性能。
  2. 经常使用两种交叉验证方法:分采样或K折(如5折,10折)测试和Jackknife测试。
  3. 根据穿透分析,折刀测试比次抽样测试最少。
  4. 因此,折刀试验已被研究人员广泛认可并越来越多地采用,以检验各种预测因子的质量以及DNA结合蛋白预测的文献。
  5. 在这项研究中,我们使用了测试K折交叉验证和折刀测试。
  6. 我们使用四个性能指标,即灵敏度(Sn),特异性(Sp),准确度(Acc),马修斯相关系数(MCC)和ROC曲线下面积(AUC)来衡量预测性能与其他方法相比 文献。 前四个指标定义如下:
  7. 其中TP,FP,TN和FN分别代表真阳性,假阳性,真阴性和假阴性的数量。 一组度量标准仅对单标签系统有效。 对于在系统生物学和系统医学中存在更频繁的多标签系统,需要一组完全不同的度量标准。
  8. 在本研究中,我们还使用度量接收器操作特性曲线(auROC)来评估预测性能。 它绘制了在不同阈值设置下的真阳性率(灵敏度)与假阳性率(1-特异性)的关系图。
  9. 具有完美分类的预测器具有穿过顶部左侧角的ROC曲线(100%灵敏度和100%特异性)。 因此,ROC曲线越接近左上角,预测器的整体性能越好。 因此,auROC被用作评估预测器如何区分两个类别的主要措施。

Conclusion

  1.  在本文中,我们提出了iDNAProt-ES,一种用于鉴定DNA结合蛋白的新型预测方法。 我们已经使用进化和结构特征来分别从PSI-BLAST和SPIDER2生成的PSSM文件和SPD文件中提取分类。
  2. 我们还使用递归特征消除来选择一组最佳特征。 使用具有线性核的支持向量机(SVM)开发了用于预测的最终模型。在标准基准数据集和独立数据集上测试了iDNAProt-ES,并且在两个数据集上实现了显着改善的结果。
  3. 在本研究中进行的实验中,iDNAProt-ES的优越性显而易见。 将来,我们希望通过合并增强的数据集来更新预测方法。
  4. 对于实际应用,如前所述,关键问题是非DNA结合蛋白的数量远高于DNA结合蛋白的数量。 因此,具有平衡方法的增强数据集可以进一步增强预测器的性能。

猜你喜欢

转载自blog.csdn.net/u013841458/article/details/81254069
今日推荐