论文翻译:图卷积入门-SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS

       我们提出了一种可扩展的在图结构数据上进行半监督学习的方法,它基于一种直接在图上操作的卷积神经网络的有效变体。我们通过频谱图卷积的局部一阶近似来激励卷积架构的选择。我们的模型以图形边的数量线性缩放,并学习编码局部图结构和节点特征的隐藏层表示。在引文网络和知识图数据集的大量实验中,我们证明了我们的方法。

      我们考虑对图(如引文网络)中的节点(如文档)进行分类的问题,其中标签只对一小部分节点可用。这个问题可以被框定为基于图的半监督学习,通过某种形式的显式基于图的正则化来平滑图上的标签信息(Zhu et al., 2003;周等,2004;Belkin et al .,
2006;(Weston et al., 2012),例如在损失函数中使用图Laplacian正则化项:

其中,L0为有监督损失w.r.t。图中标记的部分,f(·)可以是类神经网络可微函数,虚拟现实是权重因子,X为节点特征向量Xi的矩阵。∆= D−A为无向图G = (V, E)的未归一化图LaplacianN个节点vi∈V,边(vi), vj)∈E,邻接矩阵A∈RN×N(二进制或加权),度矩阵Dii =P j Aij。Eq. 1的公式是基于图中连接节点可能共享同一标签的假设。然而,这种假设可能会限制ca的建模 。

     在本工作中,我们直接使用神经网络模型f(X, a)对图结构进行编码,并对所有带标签的节点进行监督目标L0的训练,从而避免了损失函数中基于图的显式正则化。对图的邻接矩阵f(·)进行条件设置将允许模型从监督损失L0中分配梯度信息,并使其能够学习带标签和不带标签的节点表示。

       我们的贡献是双重的。首先,我们为神经网络模型引入了一个简单的、表现良好的分层传播规则,该规则直接对图进行操作,并展示了如何从频谱图卷积的一阶近似中激发该规则(Hammond等人,2011)。其次,我们演示了这种基于图的神经网络模型如何用于快速和可扩展的图节点半监督分类。在大量数据集上的实验表明,我们的模型在分类精度和效率(以wal衡量)方面都有优势。

图形的快速近似卷积
        在本节中,我们将为一个特定的基于图形的神经网络模型f(X, a)提供理论动机,我们将在本文的其余部分使用该模型。我们考虑一个卷积的多层图具有以下分层传播规则的网络(GCN):

这里,˜= A +是无向图的邻接矩阵G self-connections补充道。是单位矩阵,D˜ii =P j˜ij和W (l)是一个分层的可训练的权重矩阵。(·)表示激活函数,如ReLU(·)= max(0,·)。H (l)∈RN×D为第l层激活矩阵;下面,我们证明了这种传播规则的形式可以通过对图上的局部光谱滤波器的一阶近似来激发(Hammond等人,2011;Defferrard等,2016)

谱图曲线玲珑
我们考虑定义为信号x∈R的乘法的图上的光谱卷积N(每个节点的标量)带有一个过滤器g的N在傅里叶域中,即:

其中U是归一化图拉普拉斯L = IN - D - 1的特征向量矩阵2广告−12 =UΛU>,对角矩阵的特征值Λ和U> x x的傅里叶变换图。我们可以理解gθL的特征值的函数,即gθ(Λ)。计算公式3是昂贵的计算,因为乘法特征向量矩阵U是O(N2))。此外,首先计算L的特征分解对于大型图来说可能代价高昂。绕过这个问题,建议在哈蒙德et al . (2011) gθ(Λ)可以被截断扩张的近似值,切比雪夫多项式Tk (x) k顺序:

新Λ=˜2λmaxΛ−。其中,max为L. L.的最大特征值0∈RK现在是切比雪夫系数的向量。契比雪夫多项式递归定义为Tk(x) =
2xTk−1(x)−Tk−2(x),其中T0(x) = 1, T1(x) = x。(2011)来深入讨论这个近似:

回到我们对信号x和滤波器g的卷积的定义0时,我们有:

与L˜=2λmaxL−IN;可以很容易地验证了注意到(UΛU>)k = UΛ骨>。注意,这个表达式现在是K本地化的,因为它是一个拉普拉斯式的K阶多项式,也就是说,它只依赖于距离中心节点(K阶邻域)最大K步的节点。计算公式5的复杂度是O(|E|),即边的数量是线性的。Defferrard et al。(2016)在图上使用k局部卷积定义卷积神经网络。

LAYER-WISE线性模型
        因此,可以将Eq. 5形式的多个卷积层叠加起来,建立基于图卷积的神经网络模型,每一层都遵循点非线性。现在,假设我们将分层卷积操作限制在K = 1(见Eq. 5),即一个线性w.r.t. L的函数,因此是一个在拉普拉斯谱图上的线性函数。这样,我们仍然可以通过叠加多个卷积滤波层来恢复丰富的卷积滤波函数,但我们并不局限于切比雪夫多项式等给出的显式参数化。我们直观地期望这样一个模型能够缓解节点度分布非常广的图(如社交网络、引文网络、知识图和许多其他真实图数据集)的局部邻域结构的过拟合问题。此外,对于固定的计算预算,这种分层线性公式允许我们构建更深层次的模型,这是一种已知的提高在许多领域建模能力的实践(He等人,2016)。

       在这个GCN的线性公式中,我们进一步逼近了最大拟合≈2,因为我们可以预期,神经网络参数将在训练过程中适应这种规模的变化。在这种近似公式5简化为:

      具有两个自由参数00和θ01。过滤器参数可以在整个图上共享。连续应用这种形式的滤波器,然后有效地对一个节点的k阶邻域进行卷积,其中k是神经网络模型中连续滤波操作或卷积层的数量。

        在实践中,进一步限制参数的数量以解决过拟合问题,并使每层操作(如矩阵乘法)的数量最小化,可能是有益的。这就给我们留下了下面的表达方式:

只有一个参数00 =−θ01。注意在+ D - 1中2广告−12的特征值在范围内[0,2]。因此,在深度神经网络模型中反复使用该算子会导致数值不稳定性和爆炸/消失梯度。为了缓解这个问题,我们引入以下重正化技巧:

我们可以将这个定义推广到信号X∈RN×C,输入C个通道(即每个节点有一个C维特征向量),F个滤波器或特征图如下:

在Θ∈RC×F现在是滤波器参数的矩阵,Z∈RN乘以F是卷积信号矩阵。这种过滤操作复杂度O (| E | F C),一样可以有效地实现AX˜稠密矩阵的稀疏矩阵的乘积。

SEMI-SUPERVISED节点分类
        在引入了一个简单而灵活的模型f(X, a)来有效地在图上传播信息之后,我们可以回到半监督节点分类的问题上。如引言中所述,我们可以放松基于图的半监督学习中所做的某些典型假设,方法是在数据X和基础图结构的邻接矩阵A上对我们的模型f(X, A)进行调整。我们希望这个设置在邻接矩阵包含数据X中没有的信息的情况下特别强大,如引文网络中文档之间的引文链接或知识图中的关系。整体的模型,是多层的半监督学习的GCN如图1所示。

图1:左:输出层中C个输入通道和F个feature map半叠加学习的多层图卷积网络(GCN)示意图。图结构(以黑线表示)在层间共享,标签用Yi表示.右:t-SNE(Maaten & Hinton, 2008)使用5%的标签可视化在Cora数据集上训练的两层GCN的隐藏层激活(Sen et al., 2008)。颜色表示文档类。

例子
下面,我们考虑一个在对称邻接矩阵a(二进制或加权)上用于半监督节点分类的两层GCN。我们首先计算ˆ= D˜−12˜D˜−12 .在预处理步骤。我们的正演模型采用简单的形式:

这里W(0)∈RC×H是具有H个feature map的隐含层的输入到隐藏的权值矩阵。W (1)∈RH×F为隐藏输出权值矩阵。softmax激活函数,定义为softmax(xi) = 1zexp (xi) with Z =P i exp(xi)是行方向应用的。对于半监督多类分类,我们评估所有标记例子的交叉熵误差:

其中YL是具有标签的节点索引集。
利用梯度下降法训练神经网络权值W(0)和W(1)。在这项工作中,我们使用完整的数据集对每次训练迭代执行批量梯度下降,这是一个可行的选择,只要数据集适合内存。对a使用稀疏表示,内存需求是O(|E|),即边的数量是线性的。训练过程中的随机性是通过退学引入的(Srivastava et al., 2014)。我们将使用小批量随机梯度下降的内存高效扩展留作以后的工作。

实现
      在实践中,我们利用TensorFlow (Abadi et al., 2015)利用稀疏密集矩阵乘法对Eq. 9进行高效的基于gpu的实现。计算公式9的计算复杂度为O(|E|CHF),即图的边数是线性的。

相关工作
        我们的模型的灵感来自于基于图的半监督学习领域,以及最近在神经网络操作图上的工作。接下来,我们将简要介绍这两个领域的相关工作。

基于SEMI-SUPERVISED学习
          近年来,人们提出了大量利用图表示进行半监督学习的方法,其中大部分可分为两大类:使用某种形式的显式图拉普拉斯正则化的方法和基于图嵌入的方法。图拉普拉斯正则化的突出例子包括标签传播(Zhu et al., 2003)、流形正则化(Belkin et al., 2006)和深度半监督嵌入(Weston et al.,)最近,人们的注意力转向了使用跳跃图模型启发的方法来学习图嵌入的模型(Mikolov et al., 2013)。DeepWalk (Perozzi et al., 2014)通过对图上随机游动采样的节点的本地邻域的预测来学习嵌入。LINE (Tang et al., 2015)和node2vec (Grover & Leskovec, 2016)用更复杂的随机漫步或广度优先搜索方案扩展了DeepWalk。然而,对于所有这些方法,都需要一个包括随机游走生成和半监督训练的多步骤管道,其中每一步都必须单独优化。Planetoid (Yang et al., 2016)通过在学习嵌入过程中注入标签信息缓解了这一问题。

图形神经网络
         在图上操作的神经网络之前已经在Gori等人(2005年)中引入;Scarselli et al.(2009)作为递归神经网络的一种形式。它们的框架需要反复应用收缩映射作为传播函数,直到节点表示达到稳定的不动点。后来,Li等人(2016)在原始的graph神经网络框架中引入了现代的递归神经网络训练方法,从而缓解了这一限制。 Duvenaud等人(2015)在图上引入了类似卷积的传播规则和用于图级分类的方法。他们的方法需要学习特定节点度的权重矩阵,这些矩阵不能缩放到具有宽节点度分布的大型图。我们的模型改为每层使用一个权值矩阵,并通过邻接矩阵的适当归一化处理不同的节点度数(见3.1节)。

       Atwood & Towsley(2016)最近介绍了一种使用基于图形的神经网络进行节点分类的相关方法。他们报告O (N2
)复杂性,限制了可能应用的范围。在另一种与之相关的模型中,Niepert等人(2016)将图局部转换为序列,这些序列被送入传统的一维卷积神经网络中,这需要在预处理步骤中定义节点排序。

         我们的方法是基于频谱图卷积神经网络,Bruna等人介绍。(2014),后来被Defferrard等人(2016)扩展,具有快速的本地化卷积。与这些工作相比,我们在这里考虑的任务转换节点分类在网络的显著更大的规模。我们表明,在这种情况下,可以对Bruna等人(2014)和Defferrard等人(2016)的原始框架进行一些简化(见第2.2节),以提高大规模网络的可伸缩性和分类性能。

实验
        我们通过一系列实验来测试我们的模型:引文网络中的半监督文献分类,从知识图中提取的二部图中的半监督实体分类,对各种图传播模型的评估和对随机图的运行时分析。

数据集
         我们密切关注Yang等人(2016)的实验设置。数据集统计信息汇总在表1中。在引文网络数据集——citeseer、Cora和Pubmed (Sen et al., 2008)中,节点是文档,边缘是引文链接。标签率表示用于训练的标签节点数除以每个数据集中节点总数。NELL (Carlson et al., 2010;Yang et al., 2016)是从知识图中提取的二部图数据集,该知识图有55864个关系节点和9891个实体节点。

我们考虑了三个引文网络数据集:Citeseer、Cora和Pubmed (Sen et al., 2008)。数据集包含每个文档的稀疏词包特征向量和文档之间的引用链接列表。我们将引文链接视为(无向的)边,并构建一个二进制的、对称的邻接矩阵a。每个文档都有一个类标签。对于训练,我们只使用每个类20个标签,但都是特征向量。

NELL NELL是从引入的知识图中提取的数据集(Carlson et al., 2010)。知识图是一组具有有向标记边(关系)连接的实体。我们采用Yang等人(2016)所述的预处理方案。我们为每个实体对(e1, r, e2)分配单独的关系节点r1和r2为(e1, r1)和(e2, r2)。实体节点由稀疏特征向量描述。我们通过为每个关系节点分配一个唯一的单热点表示来扩展NELL中的特征数量,有效地得到每个节点61278 -dim稀疏特征向量。这里的半监督任务考虑了训练集中每个类只有一个带标记的例子的极端情况。如果节点i和j之间有一条或多条边,我们通过设置条目Aij = 1,从这个图构造一个二进制的对称邻接矩阵。

          随机图我们模拟各种大小的随机图数据集用于实验,我们测量每个历元的训练时间。对于有N个节点的数据集,我们创建一个随机图分配2N条边均匀随机分布。我们将单位矩阵作为输入特征矩阵X,从而隐式地采用了一种无特征的方法,其中模型只被告知每个节点的身份,由唯一的一个热向量指定。我们为每个节点添加虚拟标签Yi = 1。

试验装置
除非另有说明,否则我们将训练3.1节中所述的两层GCN,并对1,000个标记示例的测试集评估预测精度。在附录b中,我们使用最多10层的更深层次模型提供了额外的实验。我们选择了与Yang等人相同的数据集分割。(2016),并为超参数优化添加了500个标记示例的验证集(所有层的遗漏率,第一GCN层的L2正则化因子,隐藏单位数)我们不使用验证集标签进行训练。

        对于引文网络数据集,我们只在Cora上优化超参数,而在Citeseer和Pubmed上使用相同的一组参数。我们使用Adam (Kingma & Ba, 2015)对所有模型进行最多200个epoch的训练(训练迭代),学习率为0.01,并在窗口大小为10的情况下提前停止,也就是说,如果连续10个epoch验证损失没有减少,我们将停止训练。我们使用Glorot和Bengio(2010)中描述的初始化方法来初始化权重,并相应地(行)对输入特征向量进行规格化。在随机图数据集上,我们使用32个单位的隐藏层,并省略正则化(即既没有dropout也没有L2正则化)。

基线
       我们与Yang等人(2016)的相同基线方法进行比较,即标签传播(LP) (Zhu et al., 2003)、半监督嵌入(SemiEmb) (Weston et al., 2012)、流形正则化(ManiReg) (Belkin et al., 2006)和基于跳跃图嵌入(DeepWalk)(Perozzi等,2014)。我们省略了TSVM (Joachims, 1999),因为它不能扩展到一个数据集中的大量类。

          我们进一步与Lu & Getoor提出的迭代分类算法(ICA)进行了比较(2003)与两个logistic回归分类器相结合,其中一个单独用于本地节点特征,另一个用于使用本地特征和聚合操作符的关系分类Sen等人(2008)。首先使用所有带标记的训练集节点来训练局部分类器,然后用它来引导未带标记节点的类标签进行关系分类器的训练。我们使用随机节点对所有未标记节点进行10次迭代(使用本地分类器引导)来运行迭代分类(关系分类器)。L2正则化参数和聚合算子(count vs. prop,见Sen等人(2008))是根据每个数据集的验证集性能分别选择的。最后,我们与Planetoid (Yang et al., 2016)进行比较,我们总是选择它们表现最好的模型变体(转导型vs.诱导型)作为基线。

结果
6.1半监督节点分类
         结果如表2所示。报告的数字以百分比表示分类准确率。为ICA,我们报告了随机节点订单100次运行的平均精度。所有其他基线方法的结果均取自Planetoid paper (Yang et al., 2016)。Planetoid*表示了他们论文中给出的不同数据集的最佳模型。

         我们进一步以秒为单位报告了壁钟训练时间,直到我们的方法收敛(在括号中)(包括验证错误的评估)和为Planetoid。对于后者,我们使用了authors3提供的实现,并在与GCN模型相同的硬件(使用GPU)上进行了培训。我们在与Yang等人(2016)相同的数据集分割上训练和测试了我们的模型,并报告了随机权重初始化100次运行的平均准确性。我们使用了以下超参数集Citeseer、Cora和Pubmed: 0.5(辍学率),5·10−4(L2正则化)和16(隐藏单元数);NELL: 0.1(辍学率),1·10−5(L2正则化)和64(隐藏单元数)。

         此外,我们报告了我们的模型在与Yang等人(2016)相同大小的10个随机绘制数据集分割(用GCN (rand)表示)上的性能。分裂)。在这里,我们报告的平均误差和标准误差的预测精度的测试集分裂的百分比。

传播模型评价
          我们比较了我们提出的每层传播模型在引文网络数据集上的不同变种。我们遵循上一节中描述的实验设置。结果见表3。原始GCN模型的传播模型用重正化技巧表示(粗体部分)。在其他情况下,两个神经网络层的传播模型都替换为传播模型下指定的模型。报告的数字表示随机权重矩阵初始化100次重复运行的平均分类精度。每层的多个变量Θi,我们L2正规化强加于第一层的权重矩阵。

每历元训练时间:

        在这里,我们报告100个epoch在模拟随机图上每历元平均训练时间(前传、交叉熵计算、后传)的结果,以秒壁钟时间计算。这些实验中使用的随机图数据集的详细描述见5.1节。我们比较了在GPU和仅在cpu上实现的结果TensorFlow (Abadi等,2015)。图2总结了结果。 

讨论
7.1 SEMI-SUPERVISED模型

在这里演示的实验中,我们的半监督节点分类方法明显优于最近的相关方法。基于图-拉普拉斯正则化的方法(Zhu等2003;Belkin等人,2006年;(Weston et al., 2012)很可能是有限的,因为他们假设边缘仅仅编码节点的相似性。另一方面,基于跃格的方法由于是基于多步管道,难以优化而受到限制。我们提出的模型可以克服这两个限制,在效率方面(以壁挂钟时间来衡量)与相关方法相比仍然比较有利。在每一层中,通过邻近节点的特征信息传播提高了分类性能ICA (Lu & Getoor, 2003),其中只汇总标签信息。我们进一步证明该重整传播模型(Eq。8)提供了提高效率(更少的参数和操作,如乘法或加法)和更好的预测性能的数据集相比,na¨ıve 1阶模型(Eq。6)或高阶图利用切比雪夫多项式卷积模型(Eq。5)。

局限性和未来工作
        在这里,我们描述了当前模型的几个限制,并概述了在未来的工作中如何克服这些限制。在当前使用全批梯度下降的设置中,内存需求随数据集的大小线性增长。我们已经证明,对于不能适应GPU内存的大图形,在CPU上训练仍然是一个可行的选择。小批量随机梯度下降可以缓解这一问题。然而,生成迷你批的过程应该考虑到GCN模型中的层数,因为具有K层的GCN的K阶邻域必须精确地存储在内存中。对于非常大且紧密相连的图数据集,可能需要进一步的近似。我们的框架目前并不自然地支持边缘特征,并且仅限于无向图(有向图或无向图)。然而,NELL的结果表明,通过将原始有向图表示为一个无向二部图,加上表示原始图中的边的附加节点,可以同时处理有向边和边特征(详情见5.1节)。

通过第2节中介绍的近似,我们隐式地假设局部性(对具有K层的GCN依赖于K阶邻域)以及自连接与相邻节点的边同等重要。然而,对于一些数据集,在a的定义中引入一个权衡参数in可能是有益的。

在典型的半监督设置中,该参数起到了类似于监督损失和无监督损失权衡参数的作用(见Eq. 1),但在这里可以通过梯度下降来学习。

结论
本文提出了一种新的基于图结构数据的半监督分类方法。我们的GCN模型使用了一个高效的分层传播规则,该规则基于图上光谱卷积的一阶近似。在大量网络数据集上的实验表明,提出的GCN模型能够以一种有利于半监督分类的方式对图结构和节点特征进行编码。在这种情况下,我们的模型在计算效率上显著优于最近提出的几种方法。

猜你喜欢

转载自blog.csdn.net/com_fang_bean/article/details/107542379
今日推荐