Predicting drug–disease associations through layer attention graph convolutional network（通过层注意力的图卷积网络预测药物-疾病关联）
该篇论文出自华中农业大学章文老师组，发表在期刊《Briefings in Bioinformatics》

文章目录

Abstract
一、Introduction
二、Materials
三、Results and discussion
四、Conclusions
五、个人总结

Abstract

背景:确定药物-疾病关联是药物开发过程中不可或缺的一部分。然而，通过湿实验来确定药物-疾病关联是昂贵且低效的。因此，开发高效和高准确度的计算方法来预测药物-疾病关联具有重要意义。

结果:在本文中，我们提出了一种新的用于药物-疾病关联预测的计算方法名字叫层注意图卷积网络（LAGCN）。具体来说，LAGCN首先将已知的药物-疾病关联、药物-药物相似性和疾病-疾病相似性集成到一个异构网络中，并将图卷积运算应用到网络中，以学习药物和疾病的嵌入。第二，LAGCN使用注意机制将来自多个图卷积层的嵌入结合起来。第三，未观察到的药物-疾病关联基于整合的嵌入进行评分。通过5倍交叉验证评估，LAGCN的精度-召回曲线下面积为0.3168，接收器-工作特性曲线下面积为0.8750，优于现有的最先进预测方法和基线方法的结果。案例研究表明，LAGCN可以发现在我们的数据集中没有被精选的新关联。

结论:LAGCN是预测药物-疾病关联的有用工具。研究表明，来自不同卷积层的嵌入可以选择不同阶的相似度，通过注意机制整合嵌入可以提高预测性能
源码：https://github.com/storyandwine/LAGCN

一、Introduction

药物开发是一个极其漫长和昂贵的过程，花费26亿美元，一种新药平均需要12年时间[1]。确定新药的相关疾病(如标签外适应症和副作用)是药物开发的重要组成部分。通过计算，识别药物-疾病关联可以有效地挑选出候选关联并指导进一步验证的湿实验，因此可以加速药物开发。高精度计算方法的发展具有深远的意义和巨大的挑战，并引起了人们的持续关注。

以前预测药物-疾病相关性的计算方法可以大致分为三类，[2，3]，即基于网络传播的方法、基于机器学习的方法和基于深度学习的方法。

基于网络传播的方法通常通过连接不同网络的路径上的信息传播将药物与疾病联系起来[4–7]。例如，王等人[8]设计了一种基于三层异构图的推理方法(TLHGBI)来推断药物和疾病之间的潜在联系。罗等人分别在药物-疾病二分网络[9]和药物-靶标-疾病异构网络[10]上应用随机行走来预测新的药物-疾病关联。虽然基于网络传播的方法具有良好的可解释性，但其性能并不令人满意[2]。

机器学习技术已被广泛用于开发更精确的药物-疾病关联预测模型。例如，许多基于特征的分类方法[11–15]将药物-疾病对作为样本，将药物和疾病的辅助信息编码成特征向量来表示样本，然后训练分类器来区分关联是否存在。然而，基于特征的分类方法严重依赖于特征的提取和负例样本的选择。因此，诸如稀疏子空间学习[16]、半监督图分割[17]、标签传播[18]、正则化最小二乘[19]、矩阵分解[20–22]和矩阵补全[23–26]等一系列更复杂的技术已被应用于药物-疾病关联预测。尤其是矩阵分解和矩阵补全技术，由于其在整合先验信息方面的灵活性，在社区中非常受欢迎，并在预测药物-疾病关联方面显示出有希望的结果，但是由于矩阵运算的高度复杂性，在大规模数据上部署它们是具有挑战性的。

深度学习方法已被证明在许多任务中更有效，包括但不限于人脸识别、问答系统、计算生物学[27，28]，并且在药物-疾病关联预测中也有成功的应用[29–31]。例如，曾等人[29]最近开发了一种基于网络的深度学习方法，称为deepDR。首先计算10个药物相关网络的正点互信息(PPMI)矩阵并将其作为特征，然后通过多模态深度自动编码器融合PPMI矩阵，最后通过集合变分自动编码器利用融合后的特征推断现有药物的新应用。deepDR的优点是充分利用药物相似网络的拓扑信息。然而，deepDR没有考虑疾病的副作用信息。DeepDR有两个独立的组件，而不是一个完整的端到端框架，这可能会对预测模型的性能产生影响。

图卷积网络(GCN) [32]，扩展了用于处理图形数据的卷积神经网络，易于嵌入到端到端体系结构中，以利用图形输入执行特定任务，通过图形节点之间的消息传递捕获图形的结构信息，并保持高可解释性。最近，它在生物医学网络分析中表现出令人信服的性能，如microRNA(MiRNA)-疾病关联预测[33]，药物副作用预测[34]和MiRNA-药物关联预测[35]。

在这篇文章中，我们开发了一种新的端到端层注意图卷积网络(LAGCN)方法来预测药物-疾病的关联。我们首先通过整合已知的药物-疾病关联、药物-药物相似性和疾病-疾病相似性来构建异构网络。然后，我们使用异构网络上的图卷积运算来学习药物和疾病的嵌入。假设来自多个卷积层的嵌入反映了网络中节点之间不同阶次的相似性[36]，我们借助注意机制[37]来整合来自多个图卷积层的所有有用的结构信息。最后，未观察到的药物-疾病关联的预测分数由基于集成嵌入的明确定义的分数函数给出。根据可靠的计算机实验，我们提出的方法在精确-回忆曲线(AUPR)下的面积分数为0.3168，在接收器-操作特性曲线(AUC)下的面积分数为0.8750，并且比其他最先进的方法和基线方法表现得更好。
这项工作的主要贡献总结如下:
（1）我们提出了一种完整的基于端到端的图的深度学习方法，称为LAGCN，用于有效预测药物-疾病相关性。
（2）LAGCN利用GCN从由药物-疾病关联、药物-药物相似性和疾病-疾病相似性组成的异构网络中获取结构信息。
（3）引入了注意机制，将不同卷积层的嵌入结合起来，从而更好地呈现药物和疾病的信息。

二、Materials

1.Datasets

我们以前的研究[20，38]中的数据在本文中被汇编为主要数据集。主要数据集包含269种药物和598种疾病之间的18 416种药物-疾病关联，来源于Comparative T oxicogenomics Database (CTD)[39]。关于药物的综合信息，如靶点、酶、药物-药物相互作用、途径和子结构，可从DrugBank database[40]中获得。疾病通过医学主题词(MeSH)的标准术语进行规范化。考虑到治疗关联可能对药物发现具有特殊意义，我们还从主数据集提取了6244个在CTD中注释的治疗关联作为治疗数据集。表1总结了两个数据集的详细信息。

2.Construction of the heterogeneous network

Drug–drug similarities
药物通常具有描述生物或化学特征的不同特征。一种药物可以被编码为二进制特征向量，其中每个元素表示特征描述的存在或不存在。由于我们有不同类型的特征，我们可以将药物转换成多种类型的特征向量，并通过使用不同的相似性度量，基于这些特征计算各种药物-药物相似性。据我们所知，Jaccard index[29，41]和Cosine similarity[21]是衡量药物相似性的两个主要指标。
两个二进制特征向量xi和xj之间的Jaccard索引
在这里插入图片描述
Xi∩Xj表示xi 中的两个元素和对应的xj元素都等于1的情况数，以及xi∪ xj表示xi元素或相应的xj元素等于1的情况数。
两个二进制特征向量xi和xj的余弦相似性被计算

其中||xi||表示xi的L2范数。

在这项工作中，我们采用 Jaccard index来计算我们的预测方法的药物-药物相似性，并考虑余弦相似性。 Jaccard index和余弦相似性在“结果和讨论”部分进行了比较。由于我们的数据集中有五种类型的药物特征，我们还根据不同的特征计算药物间的相似性，并比较这些相似性。

Disease–disease similarities
疾病的MeSH描述可以表示为分层有向无环图(DAGs)。如[42]所述，可以使用DAG结构计算疾病之间的相似性。对于一个疾病d，我们用DAG(d) =(N(d)，E(d))，其中N(d)是包含d及其祖先的节点集，E(d)表示从父节点到其子节点的直接连接集。基于该DAG结构，DAG(d)中的节点n对疾病d的语义值的贡献由下式给出
在这里插入图片描述
其中△是范围从0到1的贡献因子，这里△被设置为0.5。疾病d的语义值定义为DV(d) = P n∈N(d)Cd(n)。据信，在DAG中祖先更常见的疾病倾向于具有更高的语义相似性。根据这一假设，我们计算了两种疾病之间的语义相似度
在这里插入图片描述
Heterogeneous network
异构网络是基于药物-疾病关联、药物-药物相似性和疾病-疾病相似性构建的。

我们将药物-疾病关联表示为二分矩阵A∈{ 0，1}N×M，其中M，N分别表示疾病和药物的数量。如果药物ri与疾病dj有关，Aij等于1；否则Aij= 0。N种药物之间的成对相似性表示为相似性矩阵Sr， Srij表示其第(I，j)个条目；M种疾病之间的成对相似性表示为相似性矩阵Sd，Sdij表示第(I，j)个条目。我们通过~Sr = Dr 11/2s rDr 1 2和∨Sd = Dd 1 2s dDd 1 2来标准化相似性矩阵，其中Dr= diag(P jSr ij)和Dd= diag(P jSd ij)。最后，我们构建由邻接矩阵定义的异构网络:
在这里插入图片描述

3.Layer attention graph convolutional network

在本节中，我们介绍用于药物-疾病关联预测的LAGCN。LAGCN的工作流程如图1所示。
在这里插入图片描述

4.Method architecture

GCN [32]是一种多层连接神经网络结构，用于从图形结构数据中学习节点的低维表示。GCN的每一层通过图的直接链接聚集邻居的信息来重构嵌入，作为下一层的输入。

特别地，给定一个具有相应邻接矩阵G的网络，GCN的分层传播规则被公式化为
在这里插入图片描述
其中，H(l)是节点在第l层的嵌入，D = diag(PjGij)是G的度矩阵，W(l)是层特定的可训练权重矩阵，σ()是非线性激活函数。

为了构建用于学习药物和疾病的低维表示的基于GCN的编码器，我们考虑通过在我们构建的异构图AH上使用GCN来组合节点相似性和直接连接的关联信息。首先，我们引入一个惩罚因子来控制相似性在GCN传播过程中的贡献。具体来说，我们将输入图G设置为
在这里插入图片描述
然后，我们将嵌入初始化为

通过以上设置，我们的GCN编码器的第一层被公式化为

其中W(0)∈ R(N+M)×k是输入到隐藏权重矩阵，H(1)∈ R(N+M)×k是异构网络AH的节点(药物和疾病)的第一层嵌入，k是嵌入的维数，G在等式(7)中定义。对于l = 1，2，…，我们的GCN编码器的后续层遵循等式(6)，L与等式(7)中定义的W(l)∈ Rk×k和 G。经过L次迭代，我们可以从不同的图卷积层获得L个k维嵌入。指数线性单元[43]被用作所有图形卷积层中的非线性激活函数，这不仅加速了学习过程，而且显著增强了泛化性能。

不同层的嵌入捕获异构网络的不同结构信息。例如，第一层获取直接链路信息，而更高层通过迭代更新嵌入来捕获多跳邻居信息(高阶邻近)。考虑到不同嵌入在不同层的贡献是不一致的，我们引入了一种注意机制来组合这些嵌入并获得药物和疾病的最终嵌入，如hHR HD i = PalHl，其中HR∈ RN×kis是药物的最终嵌入，HD∈ RM×k是疾病的最终嵌入，al是由神经网络自动学习并初始化为1/(l + 1)，l = 1，2，.。。，L。

为了重建药物-疾病关联的邻接矩阵，采用了由[33]创建的双线性解码器:
在这里插入图片描述
其中W′∈Rk×k是可训练矩阵。药物与疾病相关性的预测分数由相应的A‘’（i,j）一个条目，表示为一个“aij”。

5.Optimization

从包含N种药物和M种疾病的数据集，我们将药物-疾病关联对作为阳性实例，并将其他对作为阴性实例。这里，正实例集和负实例集分别表示为Y+和Y。区分两种类型的药物-疾病对是一个二元分类问题。然而，关联的数量远远少于药物-疾病对的数量，药物-疾病对没有观察到关联。这里，我们采用加权交叉熵作为损失函数:
在这里插入图片描述
其中(i，j)表示药物ri和疾病dj的配对。λ =然后呢。y是Y+和Y中的实例数。权重因子λ强调观察到的关联的重要性，以减少数据不平衡的影响。

所有可训练的权重矩阵(W(l)和W’)都是由Xaiver初始化方法初始化的[46]。然后，我们使用亚当优化器[47]来最小化损失函数。Adam优化器可以根据训练数据迭代更新神经网络的权值。为了防止过度拟合，我们将节点丢失[48]和常规丢失[49]引入图卷积层。这种节点丢失可被视为不同模型在各种子网上的训练，通过整合这些小模型来预测未知的药物-疾病对[50]。此外，在优化期间使用循环学习率[51]。简单的循环学习率使学习率在最大学习率和最小学习率之间发生变化，帮助我们平衡训练速度和ACC。

三、Results and discussion

1.Experimental setting

在我们的实验中，我们采用五倍交叉验证来评估预测方法的性能。所有已知的药物-疾病关联被随机分成五个相等的子集。交叉验证过程重复五次，每个子集依次用作测试集，而剩余的四个子集用作训练集。在每个文件夹中，基于训练集中的已知关联构建预测模型，并用于预测测试集中的关联。我们采用AUPR指数和非标准曲线作为主要指标，因为它们可以在没有任何特定阈值的情况下测量方法的性能。此外，还计算了基于阈值的度量，即召回率(也称为灵敏度)、特异性、ACC、精度和F1-measure (F1)。

LAGCN中有几个超参数，如嵌入k的维数，L的层数，优化器lr的初始学习率，LAGCN α的总训练周期，两个丢失率(节点丢失和规则丢失)β，γ和异构网络中的惩罚因子。我们从范围α ∈ {500，1000，2000，4000}，β，γ ∈ n 0.1，0.2，0.3，0.4，0.5，0.6 o和∈ n 2，4，6，8，10 o，通过经验调整参数，我们在下面的实验中为LAGCN设置了参数k = 64，L = 3，lr = 0.008，α = 4000，β = 0.6，γ = 0.4和= 6

2.Results of LAGCN

Influence of different heterogeneous networks
在这里插入图片描述
Effect of layer attention mechanism

3.Comparison with other methods

4.Case study

四、Conclusions

在本文中，我们建立了一个用于识别潜在药物-疾病关联的LAGCN。与利用二分图的现有方法相比，LAGCN捕捉由药物-疾病关联、药物-药物相似性和疾病-疾病相似性构建的异构网络的拓扑信息。通过自适应地将不同卷积层的嵌入与注意机制相结合，并且优于其他药物-疾病关联预测方法和基线方法。

未来，我们将考虑更多参与药物-疾病关联的生物实体，如基因、微小核糖核酸和靶标，并建立一个具有更多实体类型和链接的异构网络，用于药物-疾病关联预测。尽管GCN是分析网络的一种强有力的方法，但它存在过度平滑的问题，我们将使用数据增强技术来缓解GCN深处的过度平滑。

五、个人总结

1、该论文使用了多种数据源（即文中的多种类型的特征），计算了多种相似性，并分别利用其中一种相似性构建了药物-疾病异构网络，使用图卷积进行学习异构网络的低维嵌入表示，考虑到每层图卷积是对异构网络中节点的不同阶的邻居进行学习，便加了一个注意力机制进行自适应融合多层图卷积之后的嵌入表示。
2、该论文感觉没有细致的描述怎么使用的注意力，也就是注意力得分是怎么计算出来的。不过该论文的实验做的比较充足。
3、计算出了多种相似性，可以充分数据特点，进行多数据融合在使用图卷积来做。
4、与最近的一些基于深度学习的药物-关联预测的方法进行比较来看，可以发现，该论文的效果并不是很突出，AUC（0.875），PR（0.3168）。作者也采用了准确率这些评估指标来做了实验，其实感觉没有很必要，因为数据是比较稀疏的数据，0是非常的多，模型随便预测给个0就是预测准确了。所以从该论文的实验结果也可以看出来，准确率都是非常的高。

Predicting drug–disease associations through layer attention graph convolutional network 论文解析