论文翻译：GRAPH ATTENTION NETWORKS

我们提出了图形注意力网络(GATs)，一种新型的神经网络架构，它在图形结构的数据上运行，利用掩蔽的自注意层来解决基于图形卷积或其近似方法的缺点。通过叠加节点能够参与其邻域特征的层，我们可以(隐式地)为邻域中的不同节点指定不同的权重，而不需要任何代价高昂的矩阵操作(比如反演)，也不需要预先知道图形结构。我们以这种方式处理西瓦拉问题：

卷积神经网络(CNNs)已被成功应用于解决图像分类(He et al.， 2016)、语义分割(Jegou et al.， 2017)或机器翻译(Gehring et al.， 2016)等问题，其中底层数据表示具有网格状结构。这些结构通过将其应用到所有的输入位置，有效地重用具有可学习参数的本地过滤器。

然而，许多有趣的任务所涉及的数据不能以网格状结构表示，而是位于一个不规则的域中。这是三维网格、社交网络、电信网络、生物网络或大脑连接体的例子。这些数据通常可以用图表的形式表示：

在文献中已经有几个扩展神经网络处理任意结构图的尝试。早期工作使用递归神经网络处理图域中表示为有向无环图的数据(Frasconi等，1998;Sperduti & Starita, 1997)。图神经网络(GNNs)在Gori等人(2005)和Scarselli等人(2009)中被引入，作为一种递归神经网络的推广，它可以直接处理更一般的一类图，例如循环图、有向图和无向图。gnn由一个迭代过程组成，它传播根据它的状态。Li等人(2016)采用并改进了这个想法，提出在传播步骤中使用门控循环单元(Cho et al.， 2014)。然而，人们对将卷积推广到图域越来越感兴趣。这方面的进展通常分为光谱方法和非光谱方法。一方面，光谱方法对图的光谱表示进行处理，并已成功地应用于节点分类。在Bruna等人(2014)中，卷积运算是通过计算Laplacian图的特征分解来定义在傅里叶域中的，从而导致潜在的密集计算和非空间局部滤波器。这些问题在后续的工作中得到了解决。Henaff等人(2015)引入了具有平滑系数的光谱滤波器的参数化，以使其在空间上局部化。Defferrard等人(2016)提出通过图的切比雪夫展开来近似滤波器
Laplacian，不需要计算Laplacian的特征向量，产生空间局部滤波器。最后，Kipf和Welling(2017)简化了前面的方法，限制滤波器在每个节点周围的1步邻域内运行。然而，在所有上述光谱方法中，学习滤波器依赖于拉普拉斯特征基，而拉普拉斯特征基依赖于图结构。因此，在特定结构上训练的模型不能直接应用。另一方面，我们有非光谱方法(Duvenaud et al.， 2015;阿特伍德& Towsley2016;(Hamilton et al.， 2017)，直接在图上定义卷积，对一组空间近邻进行操作。这些方法的挑战之一是如何定义一个操作符，该操作符与不同大小的邻域一起工作，并保持cnn的权重共享性质。在某些情况下，这需要学习每个节点度的特定权重矩阵(Duvenaud等，2015)，利用转移矩阵的幂定义邻域，同时学习每个邻域的权值这是一种空间方法，将CNN架构统一概括为图形。最近，Hamilton等人(2017)引入了一种用归纳方式计算节点表示的方法GraphSAGE。该技术通过对每个节点的固定大小的邻域进行采样，然后在其上执行特定的聚合器(例如所有采样邻域特征向量的平均值，或者通过递归神经网络将其输入的结果)。这种方法已经在几个大规模的感应基准测试中取得了令人印象深刻的性能。在许多基于序列的任务中，注意力机制几乎已经成为事实上的标准(Bahdanau等，2015;Gehring等，2016)。注意力机制的好处之一是，它们允许处理不同大小的输入，关注输入中最相关的部分来做出决定。当使用注意机制来计算单个序列的表示时，它通常被称为自我注意或内部注意。与递归神经网络(RNNs)或卷积一起，自我注意已被证明在诸如机器阅读(以及学习句子表征(Lin et al.， 2017)。然而,
Vaswani等人(2017)表明，自我注意不仅可以改进基于RNNs或卷积的方法，而且足以构建一个强大的模型，在机器翻译任务上获得最新的性能。受最近工作的启发，我们引入了一个基于注意力的架构来执行图形结构数据的节点分类。其思想是计算图中每个节点的隐藏表示，通过关注它的邻居，遵循自我关注策略。注意力结构有几个有趣的特性:(1)操作效率高，因为它可以并行地跨节点邻对;(2)通过对相邻节点指定任意权值，可应用于不同程度的图节点;(3)该模型直接适用于感应式lea我们在四个具有挑战性的基准上验证了所提出的方法:Cora、Citeseer和Pubmed引文网络以及蛋白质-蛋白质相互作用的诱导数据集，获得或匹配了最先进的结果，这些结果突出了基于注意力的模型在处理任意结构图表时的潜力。跨边缘共享神经网络计算让人想起关系网络(Santoro et al.， 2017)和VAIN (Hoshen, 2017)，其中对象或代理之间的关系通过共享机制成对聚合。同样，我们提出的注意模型可以与Duan et al.(2017)和Denil et al.(2017)的作品相联系，他们使用邻域注意操作来计算环境中不同对象之间的注意系数。其他相关的方法包括局部线性嵌入(LLE) (Roweis &索尔，2000)和记忆值得注意的是，正如Kipf & Welling(2017)和Atwood&Towsley(2016)，我们的工作也可以被重新定义为MoNet的一个特殊实例(Monti et al.， 2016)。此外，我们的方法LLE在每个数据点周围选择固定数量的邻居，学习每个邻居的权系数，将每个点重构为其邻居的加权和。第二步优化提取点的嵌入特征。记忆网络也与我们的工作有一些共同之处，特别是，如果我们把一个节点的邻域解释为记忆，它被用来计算节点的特征值，然后通过在相同的位置存储新特征来更新。在这一节中，我们将展示用于构建任意图形注意网络的构建块层(通过堆叠这一层)，并直接概述其与之前神经图处理领域的工作相比在理论和实践上的优势和局限性我们将从描述一个单一的图形注意层开始，作为在我们的实验中使用的所有GAT架构中所使用的唯一层。我们所使用的特殊注意设置紧跟Bahdanau等人(2015)的工作，但该框架对注意机制的特定选择是不可知的。我们的层的输入是一组节点特征，h = {~ h1,~h2，…,~ hN},~你好∈RF，其中N为节点数，F为每个节点的特征数。该层生成一组新的节点特性(可能具有不同的基数F)为了获得足够的表达能力将输入特征转换为更高层次的特征，至少需要一次可学习的线性转换。为此，作为初始步骤，共享线性变换，由权矩阵W∈R参数化F0×F，应用于每个节点。然后我们在节点上进行自我注意——一种共享的注意机制a: RF0×RF0→R计算注意系数。

这表明了节点j的特征对节点i的重要性。在其最一般的公式中，模型允许每个节点都参与到其他节点上，而放弃所有的结构信息。我们通过执行掩蔽注意力将图结构注入到机制中——我们只计算节点j∈Ni的eij
， Ni是图中节点i的某个邻域。在我们所有的实验中，这些都将是i(包括i)的一阶邻居。为了使系数在不同节点之间易于比较，我们使用softmax函数对所有选择的j进行归一化:

在我们的实验中，注意机制a是由权值向量~a∈R参数化的单层前馈神经网络
2 f0，并应用漏式非线性(输入斜率为负时，斜率为充分展开，由注意机制计算的系数
(如图1(左)所示)可表示为:

在哪里?T表示换位，k表示连接操作。得到归一化注意系数后，使用归一化注意系数计算与之对应的特征的线性组合，作为每个节点的最终输出特征(潜在之后)：

图1:左:注意机制a(W~hi，W~hj)，由权向量~a∈R参数化2 f0，应用漏水激活。右图:节点1在其邻域上的多头关注(K = 3头)。不同的箭头样式和颜色表示独立的注意计算。将每个头的聚集特征进行串接或平均，得到~h01。

应用非线性函数，单价):

为了稳定自我注意的学习过程，我们发现扩展我们的机制来使用多头注意是有益的，类似于Vaswani等人(2017)。具体而言，K个独立注意机制对式4进行变换，然后将其特征串联，得到如下输出特征表示:

其中k表示连接，后置k个ij为第k个注意机制(a k)， Wk为对应的输入线性变换的权值矩阵。注意，在这个设置中，最终返回的输出h0，将由KF0特性(而不是F0)为每个节点。特别地，如果我们对网络的最终(预测)层执行多头注意，连接就不再有意义了——相反，我们使用平均和延迟应用最终非线性(通常为分类p使用softmax或logistic sigmoid)

多头图注意层的聚集过程如图1所示。

2.1小节中描述的图注意层直接解决了之前用神经网络建模图结构数据的方法中存在的几个问题:•在计算上，它是高效的:自注意层的操作可以并行化到所有边缘，输出特征的计算也可以并行化所有节点。不需要特征分解或类似的代价昂贵的矩阵操作。计算单个GAT注意头的时间复杂度0特征可以表示为O(|V |F F0 + |E|F)0)，其中F为输入特征个数，|V |， |E|分别为图中的节点数和边数。这种复杂性可以与基本的方法相媲美，如图形卷积网络(GCNs) (Kipf & Welling，2017)。应用多头注意时，存储和参数要求乘以K，而单个头的计算是充分的与GCNs不同的是，我们的模型允许(隐式地)为同一邻居的节点分配不同的重要性，从而实现了模型容量的飞跃。此外，分析学习到的注意力权重可能会带来可解释性方面的好处，就像机器翻译领域的情况一样(例如Bahdanau等人(2015)的定性分析)。注意机制以一种共享的方式应用于图中的所有边，因此它不依赖于对全局图结构或其所有节点(特征)的预先访问(许多先验技术的限制)该图不需要是无向的(如果边j→i不存在，我们可以简单地忽略计算后的模型)。
-这使得我们的技术直接适用于归纳学习——包括在训练中完全看不到的图上评估模型的任务。Hamilton等人(2017)最近发表的归纳法对每个节点的固定大小的邻域进行采样，以保持其计算足迹的一致性;这就不允许它在执行推理时访问整个邻域。
此外，这种技术在使用LSTM (Hochreiter)时获得了一些最强大的结果使用了基于社区聚集器的方法。这假设存在一个一致的连续节点的邻域排序，并且作者通过一致地向如第1节所述，GAT可以重新表述为莫奈的一个特殊例子
(Monti等，2016)。具体地说，将伪坐标函数设为u(x, y) = f(x)kf(y)，其中f(x)表示节点x和k的特征(可能是mlp变换的)为连接;权重函数为wj (u) = softmax(MLP(u))(softmax在一个节点的整个邻近区域执行)将使莫奈的补丁操作员类似于我们的。然而，应该注意到，与之前考虑的MoNet实例相比，我们的模型使用节点特性来实现相似性。我们能够生成一个利用稀疏矩阵操作的GAT层版本，将存储复杂性降低到节点和边的数量为线性，并支持执行GAT在更大的图形数据集上建模。然而，我们使用的张量操作框架只支持秩-2张量的稀疏矩阵乘法，这限制了该层的批处理能力，因为它目前是实现的(特别是对于具有多个图的数据集)。适当解决这一限制是今后工作的一个重要方向。取决于t的正则性还需要注意的是，我们模型的“接受域”的大小是由网络深度决定的(与GCN和类似模型类似)。然而，跳跃连接(He et al.， 2016)等技术可以很容易地用于适当扩展深度。最后，在所有图边上并行化，特别是以分布式方式并行化，可能会涉及大量冗余计算，因为感兴趣的图的邻域经常会高度重叠。我们已经对GAT模型进行了比较评估，对比了各种强基线和以前的方法，基于四个建立的基于图表的基准任务：

以及归纳)，实现或匹配的最先进的表现在所有他们。本节总结了我们的实验设置、结果以及对GAT模型提取的特征表示的简要定性分析。我们利用三个标准的引文网络基准数据集——cora，Citeseer和Pubmed (Sen et al.， 2008)，密切跟踪的转导实验设置
Yang等人(2016)。在所有这些数据集中，节点对应于文档，边对应于(无定向)引用。节点特性对应于文档的单词包表示的元素。
每个节点都有一个类标签。我们只允许每个类使用20个节点来进行训练——但是，按照转换设置，训练算法可以访问所有节点的特征向量。公关经过训练的模型的预测能力在1000个测试节点上进行评估，我们使用500个额外的节点进行验证(与Kipf & Welling(2017)使用的相同)。的Cora数据集包含2708个节点，5429条边，7个类，每个节点1433个特征。Citeseer数据集每个节点包含3327个节点、4732条边、6个类和3703个特征。Pubmed数据集包含19717个节点，44338条边，3个类，每个节点500个特征。归纳学习我们利用蛋白质-蛋白质相互作用(PPI)数据集，该数据集包含对应于不同人体组织的图形(Zitnik & Leskovec, 2017)。数据集包含20张图用于培训，2张用于验证，2张用于测试。关键的是，测试图在训练过程中完全没有被观察到。为了构建这些图，我们使用了Hamilton等人(2017)提供的预处理数据。每个图的平均节点数是2372。每个节点具有50个特征，这些特征由位置基因集、基序基因集和免疫特征组成。基因本体论中每个节点集合有121个标签，从分子标记中收集数据库(Subramanian et al.， 2005)和节点可以同时拥有多个标签。表1给出了数据集有趣特征的概述。

对于导性学习任务，我们将其与Kipf & Welling(2017)中规定的相同的强基线和先进方法进行比较。其中包括标签传播(LP) (Zhu et al.， 2003)、半监督嵌入(SemiEmb) (Weston et al.， 2012)、流形正则化(ManiReg) (Belkin et al.， 2006)、基于跳跃图嵌入(DeepWalk) (Perozzi et al.， 2014)、迭代分类算法(ICA) (Lu & Getoor, 2003)和小行星(Yang et al.， 2016)。我们还直接将我们的模型与GCNs (Kipf & Welling，以及使用高阶切比雪夫过滤器(Defferrard等人，2016)的图卷积模型，以及Monti等人(2016)提出的莫奈模型。

归纳学习对于归纳学习任务，我们比较了Hamilton等人(2017)提出的四种不同的有监督图形归纳方法。它们提供了各种方法来聚合采样邻域内的特性:graphage - gcn(它将图形卷积风格的操作扩展到归纳设置)、graphage -mean(取graph -LSTM(将邻域特征输入LSTM进行聚合)和graph -pool(对共享的非线性多层感知器转换的特征向量进行元素最大化操作)。其他转换方法要么在归纳设置中完全不合适，要么假设节点增量地添加到单个图中，这使得它们在训练期间测试图完全看不到的设置中无法使用(例如PPI数据集)。

此外，对于这两个任务，我们提供了每个节点共享多层感知器的性能(MLP)分类器(完全不包含图形结构)。

对于转换学习任务，我们采用了一个双层GAT模型。它的架构超参数已经在Cora数据集上进行了优化，然后被Citeseer重用。第一层包括K = 8个注意头计算F0 =每个8个特征(共64个特征)，然后是一个指数线性单元(ELU) (Clevert et al.， 2016)非线性。第二层用于分类:计算C特性(其中C是类的数量)的单个注意头，然后是softmax激活。来应对这个小的训练集每个节点暴露在随机抽样的邻域中)。与Monti等人(2016)观察到的情况类似，我们发现Pubmed的训练集大小(60个例子)需要对GAT架构进行细微的改变:我们使用K = 8个输出注意头(而不是1个)，并将L2正则化增强到此外，该架构与Cora和Citeseer使用的架构相匹配。对于归纳学习任务，我们采用了三层GAT模型。前两层都包含K = 4个注意头计算F0 = 256个特征(总共1024个特征)，然后是ELU非线性。最后一层用于(多标签)分类:K = 6个注意头，分别计算121个特征，取平均值，然后进行logistic sigmoid激活。此任务的训练集足够大，我们发现不需要应用然而，我们成功地使用了跳跃连接(He et在训练过程中，我们使用了2个图的批量大小。严格评估应用的注意机制的好处在这个设置(即与近GCN-equivalent模型)相比,我们还提供结果时持续的关注机制,(x, y) = 1, architecture-this相同的使用,将同样的重量分配给每一个邻居两个模型都使用Glorot初始化(Glorot & Bengio, 2010)进行初始化，并使用Adam SGD优化器(Kingma & Ba, 2014)对训练节点的交叉熵进行最小化训练，Pubmed的初始学习率为0.01，其他所有数据集的初始学习率为0.005。在这两种情况下，我们对交叉熵损失和准确性(转导性)或micro-F1使用早期停止策略(归纳)验证节点上的得分，耐心100 epoch 1我们的对比评价实验结果汇总在表2和表3中。对于转换任务，我们报告了在我们的方法的测试节点上运行100次后的平均分类精度(带有标准偏差)，并重用Kipf & Welling中已经报告的度量(2017)和Monti等人(2016)获奖。具体来说，对于基于Chebyshev滤波器的方法(Defferrard等人，2016)，我们提供了K = 2和K = 3阶滤波器的最大报告性能。为了公平地评估注意机制的好处，我们进一步对于归纳任务，我们报告了两个未见测试图节点上的微观平均F1得分，10次运行后的平均值，并重用Hamilton等人(2017)中已经报告的指标。

表2:Cora、Citeseer和Pubmed的分类准确率结果摘要。∗对应计算64个隐藏特征的最佳GCN结果(使用ReLU或ELU)

表3:PPI数据集的微观平均F1得分结果摘要。GraphSAGE∗对应的是我们仅通过修改其架构就可以获得的最好的GraphSAGE结果。Const-GAT对应的是一个与GAT具有相同架构的模型，但具有恒定的关注机制(对每个邻居分配相同的重要性;GCN-like归纳操作符)

其他技术。特别地，由于我们的设置是被监督的，我们将与被监督的进行比较GraphSAGE方法。为了评估聚合整个社区的好处，我们进一步提供(作为GraphSAGE∗我们仅通过修改GraphSAGE的架构就能得到最好的结果(这是使用三层GraphSAGE- lstm，每层计算有[512,512,726]特征，128个特征用于聚集邻域)。最后，我们报告了我们的持续关注GAT模型(作为Const-GAT)的10次运行的结果，以公平地评估：

我们的结果成功地证明了在所有四个数据集上已经达到或匹配了最先进的性能——符合我们的期望，如2.2节中讨论的那样。更具体地说，我们能够在GCNs上分别提高1.5%和1.6%的Cora和Citeseer，这表明对同一个邻域的节点分配不同的权重可能是有益的。值得注意的是在PPI数据集上取得的改进:我们的GAT模型将w.r.t.提高了20.5%，这是我们能够获得的最好的GraphSAGE结果，这表明我们的模型有潜力应用于归纳设置，并且通过观察整个邻域可以利用更大的预测能力。此外，它提高了3.9%的wr.t . Const-GAT(具有持续关注机制的同一建筑)，再次直接展示了能够给不同邻居分配不同权重的重要性。学习到的特征表示的有效性也可以定性地进行研究——为此，我们提供了一个可视化的t-SNE (Maaten & Hinton, 2008)转换后的特征表示，该特征表示由在Cora数据集上预先训练的GAT模型的第一层提取(图2)在投影的二维空间中，该表示形式显示出可识别的聚类。请注意，这些聚类对应于数据集的七个标签，验证了模型对Cora的七个主题类的区分能力。此外，我们可视化的相对优势我们已经提出了图形注意力网络(GATs)，这是一种新型的卷积式神经网络，它在图形结构的数据上运行，利用隐藏的自我注意力层。图注意力层利用在这些网络是计算有效(不需要昂贵的矩阵运算,可平行的所有节点图中),允许不同重要性(隐式地)分配到不同的节点在一个社区在处理不同大小的社区,和不依赖于知道整个图结构upfront-thus解决许多问题

论文翻译：GRAPH ATTENTION NETWORKS

猜你喜欢