An end-to-end heterogeneous graph representation learning-based framework for drug–target interactio

An end-to-end heterogeneous graph representation learning-based framework for drug–target interaction prediction(一种端到端异构图表示学习的基于药物-靶标相互作用预测的框架)由西北工业大学彭老师组发在BIB上的一篇论文

在这里插入图片描述


Abstract

准确识别潜在的药物-靶标相互作用(DTIs)是药物发现的关键步骤。虽然在过去的几十年里对DTI的鉴定进行了很多相关的实验研究,但是基于生物实验的DTI鉴定仍然是耗时和昂贵的。因此,开发有效的DTIs识别计算方法具有重要意义。在本文中,我们开发了一个基于异构“图”卷积网络的“端到端”学习框架,用于“DTI”预测,称为端到端图(EEG)-DTI。给定一个包含多种生物实体(如药物、蛋白质、疾病、副作用)的异构网络,EEG-DTI使用基于图卷积网络的模型学习药物和目标的低维特征表示,并根据学习到的特征预测DTIs。在训练过程中,EEG-DTI以端到端的方式学习节点的特征表示。评估测试表明,EEG-DTI的性能优于现有的最先进的方法。
数据和源代码可以在https://github.com/MedicineBiology-AI/EEG-DTI上找到

一、Introduction

药物靶标相互作用(drug - target interaction, DTI)鉴定对药物重新定位[1,2]和药物发现[3]具有重要意义。特别是在药物发现过程中,为了寻找安全有效的药物,在过去的几十年里已经测试了数千种化合物。采用两种生物实验方法鉴定DTIs:蛋白芯片[4]和亲和层析[5]。

然而,基于实验的药物开发是一个昂贵和耗时的过程。为了加速药物发现,开发有效的计算方法识别DTIs是至关重要的[6,7,8,9,10]。现有的基于计算的DTI识别方法可以分为三大类:基于文本挖掘的方法、基于生物特征的方法和基于网络的方法。

第一类是基于文本挖掘的方法。其中,基于文本挖掘的方法从文献中提取信息,以药物和靶标的描述为特征识别DTIs[11]。提出了一种基于语义相似度的随机森林(RF)和支持向量机(SVM)方法的DTIs识别模型[12]。该模型构建了跨越化学和生物空间的语义网络,并基于语义网络提取特征。然而,基于文本挖掘的方法受到语义表达差异的影响,不同文献之间的冲突限制了其性能。

第二类是基于生物特征的方法,也称为基于特征工程的方法。这些方法的主要思想是提取药物和靶标的生物学特征。基于提取的特征,使用机器学习模型来识别DTIs。一种基于支持向量机的二部局部模型(BLM)方法将DTI识别问题转化为二分类问题[13]。它考虑了基于化学和基因组数据的DTIs和药物-药物,靶标-靶标相似性。在此基础上,提出了一种计算框架BLMNII[14]。BLMNII将基于邻居的交互profile推断(NII)方法与BLM相结合。综上所述,这些方法都是基于相似网络来识别DTIs。孟等人使用一种名为“预测药物靶点与蛋白质序列(PDTPS)[15]”的模型,通过整合蛋白质序列和药物化学结构来预测DTIs。具体来说,给定一个蛋白质序列,该模型使用基于位置的迭代基本局部比对搜索工具(BLAST)[16]来计算基于位置的评分矩阵(PSSM)[17]。然后,在PSSM的基础上,采用bi-gram概率(BIGP)[18]模型提取特征。最后,给出一个由BIGP提取的蛋白质序列特征,PDTPS使用主成分分析(PCA)对特征进行降维。对于药物,该模型基于药物的化学结构获得药物的特征表示。然后,将药物和蛋白质的特征连接起来作为药物-蛋白质对的特征。最后,PDTPS应用相关向量机[19]对DTIs进行预测。与PDTPS类似,Wanget al.提出了一种基于自编码器的堆叠模型[20],基于PSSM学习特征。然后,该模型使用RF来预测DTIs。然而,这些方法没有考虑药物-药物或蛋白质-蛋白质的相互作用。

第三类是基于网络的方法。网络可以描述不同类型的生物实体(如药物、蛋白质)之间复杂的相互作用。一些基于网络的方法已经被开发用于DTI识别[2,21,22,23,24,25]。Zheng等提出了协同矩阵分解(collaborative matrix factorization, CMF)的DTI识别模型[21]。CMF使用协作矩阵分解来学习药物和目标的低维特征表示。这些低秩特征用交替最小二乘算法估计。它预测药物和目标之间的相互作用基于它们的低级别表征。NetLapRLS[22]是NetLapRLS[22]的缩写。NetLapRLS是一种使用拉普拉斯正则化最小二乘的半监督学习算法。NetLapRLS考虑了药物与靶标之间的相互作用以及药物-药物相似性和蛋白质-蛋白质相似性。特别是,Luo等人提出了一种名为DTINet的方法,该方法从异构网络[2]预测DTIs。DTINet整合了多种药物相关信息和蛋白质相关信息。首先,它通过多个网络计算药物和蛋白质的相似矩阵。然后,对相似矩阵依次应用带重启的随机漫步和奇异值分解(SVD),得到药物和蛋白质的特征表示。DTINet基于这些低维表示来识别DTIs。最近,Zhao等人提出了一种基于网络的结合图卷积神经网络和深度神经网络的DTI识别[26]方法。该方法通过药物-药物相互作用网络、蛋白质-蛋白质相互作用网络和药物-蛋白质相互作用网络构建药物-蛋白质对(DPP)网络。DPP网络中的一个节点代表一个药物-靶标对,边缘代表这些对之间的链接强度。然后,将DTI识别问题转化为节点分类问题。药物的种类和目标物的氨基酸信息作为DPP的特征。在特征提取阶段,模型应用图卷积运算捕获DPP节点的特征。

药物与靶标的关系是复杂的。几种类型的信息,如药物-疾病关联、药物-药物相互作用、药物-副作用关联和疾病-蛋白关联,应该被考虑用于DTI预测。现有的方法通常根据每种类型的交互分别提取特征。然后,基于每种交互类型的特征被连接在一起。这些方法不能对单个异构网络中的异构信息进行建模。因此,现有的方法不能很好地考虑多种生物实体之间的联系,如药物、疾病、蛋白质、副作用等。现有方法主要分为特征提取和DTI预测两个独立的步骤,并不是端到端模型。最终的DTI预测任务不能优化特征提取步骤中涉及的参数。

近年来,基于异构图表示学习的方法在许多任务中取得了巨大的成功,如项目推荐[27,28]和多药副作用预测[29]。与同构网络相比,基于异构网络的方法可以在单一异构网络中模拟多种类型的实体以及不同类型实体之间的复杂交互。图卷积网络(Graph convolutional networks, GCN)是一种功能强大的网络数据深度表示学习方法,在网络分析方面表现出了优异的性能,引起了广泛的研究兴趣。GCN的介绍可以在补充文件中找到。

受基于异构网络和基于gcn模型成功的启发,我们提出了一种新型的端到端异构图表示学习框架EEG-DTI,用于识别药物和靶标之间的相互作用。为了在最终的DTI预测任务的基础上优化所有参数,EEG-DTI被设计为端到端方式。这里有四个主要的贡献:

(1)为了更好地描述药物和目标之间的关系,我们构建了一个具有多个实体(如药物、蛋白质、疾病、副作用)和多种边缘类型的异构网络。
(2)我们提出了一种基于异构gcn的方法来学习基于异构网络的药物和靶标特征表示
(3)我们提出了一个端到端的框架来预测DTI,该框架可以基于最终的DTI预测任务来优化模型中的参数。
(4)评估结果表明,EEG-DTI在DTI预测方面优于一些最先进的方法。

二、Methodology

我们提出了一种基于端到端异构图表示学习的新方法EEG-DTI来识别DTIs。EEG-DTI的工作流程如图1所示。我们的工作包括三部分。首先,通过结合八种类型的生物网络构建异构网络(图1A)。其次,我们提出一种新的异构图卷积神经网络,基于所构建的网络获得药物和靶标的低维表示(图1B)。第三,我们使用内积法基于低维表示计算药物与靶标之间的相互作用得分,并通过交叉熵优化模型(图1C)。
在这里插入图片描述

Construct a heterogeneous network

在本节中,我们将介绍如何构建异构网络。具体来说,我们将药物-药物相互作用网络、药物-蛋白质相互作用网络、药物-疾病关联网络、药物-副作用关联网络、药物-药物相似网络、蛋白质-蛋白质相互作用网络、蛋白质-疾病关联网络、蛋白质-蛋白质相似网络等8种类型的网络组合构建一个异构网络。在构建的异构网络中包含了两种边缘。边的一种类型是包含在组合网络中的原始交互作用。另一种边缘被称为“相似边缘”,它是根据每个组合网络中生物实体之间的相似性添加的。

除了网络中原有的关联,我们在异质网络中添加了额外的药物-药物相似性和蛋白质-蛋白质相似性信息。利用Jaccard相似系数计算药物与药物、蛋白质与蛋白质之间的相似度。Jaccard相似度用来度量两个集合的相似度。以药物-疾病关联网络为例,描述了如何计算药物-药物相似网络。我们用下式计算药物i与药物j的相似值:
在这里插入图片描述
其中D_i为药物i的疾病集合,Aij为药物i与药物j的相似值,Aij∈[0,1]。

对于每一对药物,我们根据药物-疾病关联网络、药物-药物相互作用网络和药物副作用关联网络三个网络计算其相似性。因此,我们可以获得三个相似性分数对于一个给定的一对药物(药物i和药物j)。如果其中一个分数大于给定的阈值,没有原始药物i和药物j之间的关联,我们添加一个相似药物之间的边缘药物i和药物j(见补充文档细节)。

对于靶标(蛋白质),我们也根据两个网络计算其相似性,如蛋白质-疾病关联网络和蛋白质-蛋白质相互作用网络。类似于添加药物之间的相似边,我们添加蛋白质之间的相似边(详细信息见补充文档)。

2.Heterogeneous network-based feature extraction framework

识别DTI的关键步骤是特征提取。近年来,GCN被广泛用于网络中节点特征的聚合。在网络上进行图卷积的本质是实现相关节点之间的特征聚合。

在这一节中,我们将介绍如何通过每一层的异构图卷积神经网络来生成每个节点的特征表示。在构造的异构网络中,存在多种类型的边缘。为了提取异构网络中药物和目标的特征,我们提出了一种异构图卷积网络(HGCN),基于异构网络中不同类型的边缘进行消息传递。

异构网络是指具有多种节点和边缘类型的网络。对于一个异构网络,可以表示为G = (V, E, R),其中vi∈V表示异构网络中的节点,(vi, R, vj)∈E表示异构网络中的边,r∈R表示异构网络中的边类型。具体来说,在异构网络中,有四种类型的节点(vi)(即药物、蛋白质、疾病、副作用)。因此,R中包含八种边缘类型,如药物-药物相互作用、药物-蛋白质相互作用、药物-疾病关联、药物-副作用关联、蛋白质-蛋白质相互作用、蛋白质-疾病关联、药物-药物相似度和蛋白质-蛋白质相似度。

在异构网络中,信息30中需要考虑不同类型的边[],在每一层中,我们对边的类型信息建模如下:
在这里插入图片描述
这里cij r= 1/ ?|Nir||Nj r|,对称平方根归一化常数;ci r= 1/|Ni r|, i n w h i c h Ni r表示viwith边型为r的邻接集;W(l)表示第l层的可训练参数,边缘类型为r;h(l) i∈r表示第l层viat的特征表示;h(l) j表示第l层viat的邻居的特征表示;h(l+1) i表示第l+1层vi的特征表示;h(l+1) i表示特征聚合操作后的特征表示;φ是整流的线性单位激活函数。具体来说,当l=0时,我们用一个热向量作为原始特征对每个节点进行编码。综上所述,在这一步中,模型可以得到异构网络中所有节点各层的特征表示。

我们已经介绍了如何为每个GCN层中的一个节点生成特征表示。在本节中,我们将介绍特征提取框架。

对于网络中的一个节点,我们知道如果图卷积神经网络层数只有一层,模型得到的节点特征表示只会聚合邻居的一阶信息。因此,图卷积层的堆叠N层可以使特征表示从其N阶邻居[31]的信息中有效卷积信息。在我们的模型中,我们实现了一个三层图卷积神经网络。在每一层中,每个节点的特征表示都是由不同类型的边连接的相邻节点的特征聚合而成的。模型的细节如图1所示。

值得注意的是,在GCN模型中叠加更多的层有可能导致常见的消失梯度问题[32,33]。换句话说,在使用反向传播训练基于gcn的模型参数时,可能会导致过平滑。由于过光滑问题[34]的存在,连通分量内顶点的特征可能收敛到相同的值。此外,在表示学习中,基于多层神经网络的模型学习到的特征可能会丢失特征信息。基于这一机制,在计算机视觉和自然语言处理领域,人们提出了许多方法来解决这一问题。例如,为了防止循环神经网络[35]中的信息丢失,提出了一种长短期记忆网络模型[36,37]。为了防止卷积神经网络[38]中的信息丢失,提出了一种残差网(ResNet)模型[39]。

受He等人[27]和Wang等人[40]的启发,He等人提出了一个名为LightGCN的模型;它考虑不同GCN层的表示。这意味着模型考虑了不同层次的信息损失。Wang等人开发了一种名为卷积空间图嵌入网络(CSGEN)的模型来预测分子性质。在他们的框架中,模型使用连接操作来防止信息丢失,就像ResNet[39]那样。为了防止信息丢失和克服过平滑,我们提出了一种简单而有效的方法。具体来说,我们将每个节点的表示连接在不同的层中。在异构网络中给定一个药物或目标,其特征表示可以描述为:
在这里插入图片描述
其中h(1) i∈Rd, h(2) i∈Rd, h(3) i∈r分别表示在图卷积神经网络的第1层、第2层和第3层中所得到的vim的特征表示。⊕表示向量串接运算。经过上述操作,我们得到每个药物或靶标hi∈R3d的特征表示。

DTI prediction

在本节中,我们将介绍如何预测DTI并通过端到端方式优化模型.

在得到药物和蛋白质的表示后,我们使用内积[41]法预测DTIs。其中,给定两个节点vi和vj, hi和hj表示各自的特征表示。vi和vj之间存在相互作用的概率可以计算为:
在这里插入图片描述
其中σ(x) = 1/(1 + e−x)为sigmoid函数,pij表示vij与vj之间的相互作用分数。
我们使用交叉熵损失来训练模型。在药物靶标识别问题中,阴性样本的数量远远大于阳性样本的数量。因此,我们使用负抽样[29,42,43]对模型进行优化。损失函数为
在这里插入图片描述
其中r为药物-蛋白质边缘型或蛋白质-药物边缘型。j r表示积极样本的概率计算的内积与边缘类型r,销rrepresents负样本的概率计算内积的负随机抽样,它遵循抽样分布Prwith边缘类型r。我们希望观察的模型分配概率边缘尽可能高的概率和随机边缘用叉损失尽可能低。

三、Results

Data preparation

为了评估基于端到端异构图表示学习的DTI预测框架的性能,我们在两个数据集上测试我们的模型,即Luo等人的[2]数据集和Yamanishi等人的[44]数据集。这两个数据集在以往的研究中被广泛用于评价DTI识别算法。

罗等人数据集包含六个药物/相关蛋白质网络:药物之间的相互作用网络[DrugBank(版本3.0)][45],蛋白质相互作用网络[HPRD数据库(版本9)][46],药物相互作用网络[DrugBank(版本3.0)][45],药物病协会网络(比较T oxicogenomics数据库)[47],protein-disease协会网络(比较T oxicogenomics数据库)[47]n d drug-side-effect协会网络[帮派成员数据库(版本2)][48]。Luo等人的详细数据集可以在补充文档中找到。另外,如何基于罗等数据集构建异构网络的细节可以在补充文档中找到。

Yamanishi等数据集包含四个亚数据集:核受体(NR), g蛋白偶联受体(GPCR),离子通道(IC)和酶。每个子数据集包含三个网络:药物-药物结构相似网络、蛋白质-蛋白质序列相似网络和药物-蛋白质相互作用网络。Yamanishi等数据集的详细信息可以在补充文档中找到。对于Yamanishi等数据集的每个子数据集,我们构建了两种二进制网络,包括drug-drug binary network和protein-protein binary network。如何构造二进制网络的细节可以在补充文档中找到。二进制网络的边缘信息可以在补充文档中找到。然后,结合药物-药物二元网络、蛋白质-蛋白质二元网络和药物-蛋白质相互作用网络构建异质网络。补充文档给出了一个基于Yamanishi等数据集的异构网络示例。

综上所述,Luo等数据集与Yamanishi等数据集的区别在于异构网络中包含的节点和边缘类型。在loet al.的数据集中,它包含四种节点(药物,蛋白质,疾病,副作用)。然而,在Yamanishi等数据集中,只有两种节点(即药物,蛋白质)。因此,不同类型的节点导致了异构网络中不同类型的边缘。

四、Experimental settings

Data generation
在[2]中,我们生成了评价数据集。将已知的DTIs作为阳性样本。我们随机选取相同数量的未知DTIs作为阴性样本。我们采用10倍交叉验证法进行评价。对于阳性样本,我们随机抽取整个标记DTIs的10%作为测试集,剩余的90%作为训练集。对于阴性样本,生成训练集和测试集的方法与生成阳性样本的方法相同。
Performance evaluation
DTI识别可以看作是链路预测任务[29]。因此,我们以受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPR)作为模型评价标准。在评价测试中,我们比较了现有的四种算法:BLMNII[14]、NetLapRLS[22]、CMF[21]和n d d T In e T[2]。BLMNII, NetLapRLS, CMF和DTINet的介绍可以在补充文件中找到。我们没有比较GCN-DTI[26],因为它需要额外的药物和靶标的特征,如药物的种类,靶标的氨基酸信息。此外,EEG-DTI的参数设置可以在补充文档中找到。

五、Conclusion

本文提出了一种新型的端到端HGCN算法EEG-DTI,并将其应用于DTI预测。结合多种生物网络构造异构网络,学习基于异构网络的低维特征表示。然后,通过端到端学习对模型进行优化。为了证明EEGDTI的性能,我们将我们的方法与四种最先进的测量方法进行了比较。对名为Luo等人和n d Yamanishi等人的两个数据集的评估表明,EEG-DTI比其他现有的最先进的方法性能更好。此外,我们测试了不同类型的节点在异构网络中的贡献和不同数量的GCN层的影响。

此外,虽然EEG-DTI主要用于预测DTIs,但它是一种可扩展的方法,也可用于预测其他生物学链接,如microrna -小分子关联[49,50,51]、microrna -疾病关联[52]和疾病关联[53]。此外,我们还将开发一个新版本的EEG-DTI来处理加权和有向网络。

六、个人总结

1、本文利用了多源数据集,8种异构网络,针对多源数据集的特点,采用了一个叫异构GCN的方式来聚合节点信息。还是值的借鉴的。

猜你喜欢

转载自blog.csdn.net/weixin_43183872/article/details/114895993