Identifying drug–target interactions based on graph convolutional network and deep neural network 论文

Identifying drug–target interactions based on graph convolutional network and deep neural network


摘要

新药-靶向相互作用(DTIs)的识别是药物发现中一个重要但耗时且成本高昂的步骤。近年来,为了减轻这些缺点,研究人员试图使用计算方法识别dti。然而,现有的大多数方法是分别构建药物网络和靶网络,然后根据药物和靶点之间的已知关联来预测新的dti,而不考虑药物-蛋白质对(DPPs)之间的关联。为了将DPP之间的关联纳入DTI建模中,我们构建了一个以DPP为节点,DPPs之间的关联为网络边缘的基于多个药物和蛋白质的DPP网络。在此基础上,我们提出了一种新的基于学习的DTI识别框架&GCN-DTI。该模型首先使用图卷积网络来学习每个DPP的特征。第二,以特征表示作为输入,利用深度神经网络预测最终标签。我们的分析结果表明,所提出的框架在很大程度上优于一些最新的方法。
源码地址:https://github.com/zty2009/GCN-DNN/

一、引言

药物靶向相互作用(DTI)的识别是开发新药和了解其副作用的重要步骤[1]。两种实验方法被广泛用于鉴别dti[2]:亲和层析[3]和蛋白质微阵列[4]。由于开发用于靶向大量蛋白质和疾病过程的合成化合物的数量不断增加,使用生物学实验鉴定DTI既耗时又费钱[5],而使用这种方法发现的真正DTI很少[6]。因此,近年来,研究人员试图通过计算方法识别dti[7]。由于现有的计算DTI识别方法可以分为三类:基于文本挖掘的方法,基于生物特征的方法和基于网络的方法。
使用文本挖掘方法识别dti
基于文本挖掘的方法通过从文献中提取信息并以药物及其靶标的描述作为特征来识别dti[8]。“MAM”[9],“pharmgbab”[10]和“Chem2bio2rdf”[11]等几种方法都是基于语义相似性来实现药物与靶点之间的关联。最近,研究人员已经开始利用机器学习的方法,利用基于文本的特征来识别dti。Fu等人。[12] 提出了一种基于随机森林和支持向量机的语义相似度框架。然而,文献中语言表达的多样性和相互冲突的信息限制了基于文本挖掘的方法的性能[13]。
用基于生物特征的方法识别dti
基于生物特征的方法应用机器学习方法来提取药物和靶标的生物特征以识别dti[14–16]。这些方法通常包括两个关键部分:特征提取和DTI预测。“SimBoost”[17]训练药物和蛋白质之间相似性的梯度提升机模型,以了解它们的结合亲和力。“NRLMF”[18]利用药物和蛋白质之间的相似性,通过logistic矩阵分解(一种协作过滤方法)来模拟药物与靶点相互作用的概率。“BLM–NII”[19]将基于邻居的交互轮廓推断集成到一个二部局部模型(BLM)中。这些方法在一定程度上提高了DTI预测的精度。然而,这些方法没有考虑药物-药物或蛋白质-蛋白质相互作用[20]。当然,疾病过程和药物之间的关系远比“一个基因、一种药物、一种疾病”的范式复杂得多[21]。
使用基于网络的方法识别DTI
近年来,基于网络的方法得到了更广泛的关注[22]。主要包括网络建设和DTI识别两个步骤。基于网络的方法根据网络拓扑结构计算药物与靶标的相似度。建立包括药物、蛋白质或两者的网络来识别新的dti[7,23,24]。二分图是这种方法中最常见的网络结构[25]。药物和蛋白质是网络中的节点,边缘是已知的dti。该方法的目的是根据已知的边缘来预测未知的边缘。其基本思想是药物倾向于与相似的靶点结合,反之亦然[22]。因此,计算药物和蛋白质的相似性在这类方法中起着至关重要的用。“DDR”[26]基于药物和蛋白质之间的相似性构建了药物-药物相互作用网络和蛋白质-蛋白质相互作用网络。然后,他们使用随机森林的方法来推断药物和蛋白质的组合。其他一些方法也使用这个概念来预测DTI[25,27,28]。基于网络的方法通常具有良好的预测精度,并考虑蛋白质之间和药物之间的关联[29]。然而,这些方法没有考虑药物-蛋白质对(DPP)之间的关联。
Yamanashi等人。[30]将靶蛋白分为四类:酶、离子通道、G蛋白偶联受体和核受体。许多DTI识别方法已经在这个数据集上进行了测试,大多数方法在曲线下面积(AUC)和精确召回曲线下面积(AUPR)方面都达到了高精度[25,31]。然而,由于大多数现有的方法没有考虑不同dpp之间的关联性,这些方法在FDA(FDA)批准的DrugBank药物中的应用效果并不理想。“DrugERank”[32]在drughbank测试时,AUPR比以前的方法提高了30%以上,但在多个测试中,AUPR最高的只有0.2831,这意味着假阳性率相当高。最近,Olayan等人。[26]开发了“DDR”方法,在三个测试中分别实现了0.63、0.42和0.4的AUPR。虽然DDR与以往的方法相比有了很大的改进,但它仍然没有建立不同药物-靶对之间的关联模型来降低假阳性率。
我们的目标
为了解决这些方法的缺陷,我们提出了GCN-DTI,它结合了图卷积网络(GCN)[33]和深层神经网络(DNN)[34]来预测DTI。GCNDTI将边缘预测问题转化为DPP分类问题。在这里,DPP是任何药物和蛋白质的组合。如果DPI能和另一种DPP相互作用,我们称之为DTI。
在我们的GCN-DTI模型中,药物网络和蛋白质网络被用来生成DPP网络。在DPP网络中,每个节点都是一个DPP,并且DPP网络的边缘由各自的药物和蛋白质网络来推断。因此,我们的DPP网络包含了有关单个药物和蛋白质、药物-药物相互作用、蛋白质-蛋白质相互作用、药物-蛋白质相互作用的信息,最重要的是,DPP之间的关联。GCN可以根据DPP网络的拓扑结构提取每个DPP的特征。在用GCN层从这个大网络中提取特征后,用DNN来预测dpp的标签。
本研究的主要贡献如下:
(i) 通过整合多种类型的交互,我们构建了一个DPP网络,其中节点是DPP,边代表DPP之间的关联。
(ii)我们采用基于GCN的模型,将药物和蛋白质特征与DPP网络的结构信息相结合
(iii)我们对该模型的评估结果表明,GCN-DTI在药物-靶相互作用预测方面优于一些最新的方法。

二、方法

GCN-DTI方法有三个步骤(图1):DPP网络的构建(DPP网络的分段构造)、GCN编码(基于GCN的分段特征表示)和DNN分类(DNN分段分类)。
在这里插入图片描述

1.Construction of the DPP network

(1)Nodes and edges of DPP network
为了分析DPP之间的关系,我们首先基于药物和蛋白质网络构建了一个DPP网络,该网络基于药物和蛋白质之间的已知相互作用具有相应的跨网络关联。这些关联来自药物-药物相互作用网络和蛋白质-蛋白质相互作用网络,代表了DPP网络的边缘。每个DPP包含一种药物和一种蛋白质,代表DPP网络的一个节点。因此,DPP网络中的节点数为:
在这里插入图片描述
其中T是DPP网络中的节点数,n是药物的数量,m是蛋白质的数量。
我们将DPP之间的关联定义为强关联、弱关联和非关联。因此,DPP关联可以推断为强连接和弱连接,如下所示:
(i) 如果两个dpp共用一种药物或蛋白质,则它们被定义为强连接。
(ii)如果两个DPP中的药物或蛋白质之间存在关联,则它们被定义为弱连接。
(iii)如果两个DPP没有共同的药物或蛋白质,并且它们的药物或蛋白质也不能相互作用,则它们被定义为无结合。
如果我们将任何DPP定义为DiPj,则DPP的关联可以用邻接矩阵A表示:
在这里插入图片描述
其中A表示DPP网络的邻接矩阵以及DPP网络的边,f?迪普,德克普?表示用于计算DPP之间关联的函数。
不同DPP之间的关联可计算如下:
在这里插入图片描述
其中didK表示ITH药物和KTH药物之间的相互作用,PJPL注意到JTH蛋白和LTH蛋白之间的相互作用。
(2)DPP feature extraction
接下来,我们提取药物和靶点的生物学特性。药物特性由化学类别确定(如肾上腺皮质激素、酰胺类、胺类和心血管药物)。蛋白质的特征由其序列信息和氨基酸的化学性质决定。每一种DPP的特征都是由其药物和蛋白质分子的结合特征构成的。
蛋白质特性。药物与其靶蛋白之间的相互作用受靶蛋白的疏水性、极性和三级结构的影响[20]。此外,疏水和亲水残基的模式有助于蛋白质的结构。因此,蛋白质序列中每个氨基酸的亲水性和疏水性将被提取为该蛋白质的化学特性。氨基酸根据其化学特性分为六类[35,36]:强亲水或极性酸(R、D、E、N、Q、K、H)、强疏水性酸(L、I、A、V、M、F)、弱亲水性或弱疏水性酸(S、T、Y、W)、脯氨酸(P)、甘氨酸(G)、半胱氨酸(C),根据它们独特的特点,它们属于自己的范畴。此外,在评价蛋白质相似性时,序列中各氨基酸的相对比例是一个重要的考虑因素。因此,这也被提取为特征。
综合起来,每种蛋白质包含26维特征,包括6种化学特性和20种氨基酸的相对比例。
药物特征。简化的分子输入行输入规范(SMILES)通常用于提取药物的化学结构[37,38],因为这种方法可以在美国标准信息交换码(ASCII)字符串[39]中明确描述分子结构。然而,功能组的细微差异会导致药物化学性质的显著差异,即使它们的微笑代码相似。因此,在本文中,药物的类别是判断其与其他药物相似性的重要依据。药品库中有超过1万种药品,为了避免维度的诅咒,只有最常见的类别才被用来区分药品。
由于每个DPP的特征是通过结合其相应药物和靶分子的特征来获得的,因此药物和蛋白质特征的维数在数量上是相似的很重要的。这确保了DPP特性不会偏向任何一个源。由于每个蛋白质的特征是26维的,所以选择25或27个类别来编码药物的特征。改变DPP网络中包含的药物数量将导致选择不同的类别(见补充部分1)。

2.GCN-based feature representation

对于给定的DPP网络,G=(V,E),V={v1,v2,…,vn}表示DPP节点,E⊆V×V是边集(即DPP之间的关联),E={e1,e2,…,em}。H e r e,n是dpp的数目,m是边的数目。
邻接矩阵A可以是二进制的或加权的[40]。由于我们定义了dpp之间的三种关联,本文对矩阵进行加权,使得强关联=1,弱关联=0.5,非关联=0。因此,我们定义了W∈Rn×nas作为编码两个顶点(即两个dpp)之间连接权的加权矩阵。加权矩阵W可由公式(3)计算,它考虑两个dpp是否连接,如果是,它们的连接强度如何。最后,利用A?=A◦W(A?是A和W的Hadamard积)。
一般来说,GCN网络中的每个节点都应该包含其自身的特征[40],因此在邻接矩阵中总是添加一个单位矩阵:
在这里插入图片描述
其中A是网络的邻接矩阵,I是单位矩阵。然而,在计算DPP网络中的邻接矩阵A时,我们已经引入了I,因此本文中的加权邻接矩阵是ˆA=A?。
因此,拉普拉斯矩阵应为:
式中,INI为单位矩阵,D为反度矩阵(见补充章节2.1)
最后,GCN可以使用以下公式提取网络中每个DPP的特征:
在这里插入图片描述
其中X是每个节点的特征向量:
在这里插入图片描述
其中fd代表相应药物的特征,而fP代表相应蛋白质的特征。 fPis 26的长度和fdis 25或27的长度。我们将fdand fPas连接到每个DPP的特征向量,因此,每个DPP的特征是其药物和蛋白质的特征的组合。
在GCN编码后,每个节点(即每个DPP)都包含与其对应的药物和蛋白质相关的所有信息,以及它在网络中的位置。

3.Classification by DNN

在利用GCN提取DPP网络特征后,利用DNN模型作为有监督学习模型来确定DPP的真实性。
如图2所示,DNN模型包含三个层。给出了各层的节点数、激活函数和丢包率。该模型的输入是DPP特征向量,它是用GCN提取的。对于第一层,使用ReLU函数构建256个节点。选择ReLU激活是因为它的计算效率、稀疏性和消失梯度的可能性降低。由于这是一个两类问题,我们选择了sigmoid激活函数作为最后一层.
由于二元交叉熵最适用于两个分类问题,因此选择二元交叉熵作为损失函数。它的输出相对容易理解:什么时候?一等于,损失为0;否则,损失为正数。而且,两种概率之间的差异越大,损失就越大。最后,“RMSProp”被选为优化器(见补充部分2.2)。
在这里插入图片描述

三、结果

我们简要介绍了在数据集一节中使用的数据集。使用这些数据集进行的实验的细节在实验设置一节中描述。接下来,在drughbank数据集中的节性能评估显示了GCN-DTI与使用DrugBank数据集的六种现有方法的比较结果。Yamanashi数据集的区段性能评估描述了GCN-DTI方法和DDR方法之间的比较,在Yamanashi数据集中,这六种方法表现最好。在药物和蛋白质之间的联系类型一节中,我们评估了我们的方法所使用的特征,并与其他方法进行了比较。最后,通过案例分析验证了GCN-DTI方法所得结果的有效性。

1.Datasets

HIPPIE数据库[41]用于获取蛋白质-蛋白质相互作用(PPI)的信息。选择得分大于0.5的ppi构建蛋白质网络。
我们在Yamanashi[30]和DrugBank 5.0.3数据集中评估了我们的模型,这些数据集也用于Wishart等人的研究。[42]。从数据库中提取了1481种已知药物和1408种已知蛋白质,dti为9880。DrugBank数据库还包含用于构建药物网络的药物相互作用的信息。
此外,从药物库数据库中获得450个新的潜在药物和304个新的潜在靶点。选择能与500多种已知药物相互作用的药物作为新药。筛选出能与15种以上已知蛋白质相互作用的蛋白质作为新蛋白。在这里,新药是指那些没有已知靶点的药物,而新靶点是那些没有已知药物可以相互作用的靶点。新药和靶点的定义与Olayan等人的定义相同。[26]。

2.Experiment setup

为了全面评估该算法,我们测试了我们的方法在三个任务上的性能:(1)识别与已知靶点的新药相互作用,称为SD;(2)识别与已知药物的新靶点相互作用,称为STand;(3)识别已知药物和靶点之间的未知DTI,称为SP(见补充部分3)。在第一种情况下,共有1931种药物(450种新药物)和1408种蛋白质,对应633600种未知DPPs和9880种真DPPs(DTIs)。在第二个病例中,共有1481种药物和1712种蛋白质(304个新的),对应于450 224个未知DPPs和9880个真DPPs(DTIs)。在第三个病例中,有1481种药物和1408种蛋白质,对应于2075368个未知DPPs和9880个真DPPs(DTIs)。这三个测试均使用十倍交叉验证。 正集和负集各分为十个子集。 然后每次选择一个阳性子集和一个阴性子集作为测试集,其余数据用作训练集。 我们将每个测试重复五次以获得平均结果。

四、结论

越来越多的研究试图使用计算方法精确地识别dti。虽然许多方法已经达到了很高的精度使用山梨数据集,现有的方法还没有达到令人满意的AUPR的FDA批准的药物在DrugBank。我们认为这是因为以前的方法没有考虑dpp之间的关联。GCN-DTI是为了克服这一缺点而开发的,被发现可以获得更高的AUPR和AUC值的预测精度。
大多数先前的研究集中在构建单独的药物和蛋白质网络以及预测连接这两个网络的边缘。相比之下,我们的方法构建了一个DPP网络,其中每个节点包含来自其相应药物和蛋白质子网络的信息。不同DPP之间的关系也可以从DPP网络的相应边得到。因此,我们的工作重点是在一个非常大的DPP网络中区分真假DPP。利用GCN层提取每个DPP的特征,然后用DNN层区分DPP的真假特征。
网络中大约有一百万个节点,所以邻接矩阵太大,不能作为一个整体来处理。因此,编码过程是逐行完成的,这对计算资源提出了很高的要求,而且非常耗时。这是今后工作中需要解决的问题。
总之,与其他方法相比,GCN-DTI大大提高了药物与蛋白质相互作用识别的准确性。三个10倍交叉验证的试验重复5次,以确认GCN-DTI的高AUC和AUPR。此外,现有文献支持使用GCN-DTI发现的5个未知DTI,这不仅表明我们的结果的可靠性,而且还表明GCN-DTI在识别现实世界的药物-靶相互作用方面的有效性。GCN-DTI的代码和结果上传到Github上,这将允许研究人员将其应用于其他数据集,以测试他们感兴趣的dpp。

五、个人理解

从技术上理解,作者使用了图卷积和神经网络的技术。该作者通过DPP网络的方法来预测药物-靶标问题,是一个很大的新意,但是个人感觉计算量大,因为在构建DPP网络的时候,包含n*m个节点。

猜你喜欢

转载自blog.csdn.net/weixin_43183872/article/details/108738913