在这里插入图片描述
原文地址：https://arxiv.org/pdf/1609.02907.pdf
特别说明：本文全基于互联网翻译，仅调整了公式样式，博主还完全未合适翻译是否通顺，后续会核查翻译。

基于图卷积网络的半监督分类

我们提出了一种可扩展的图结构数据的半监督学习方法，该方法基于直接在图上操作的卷积神经网络的有效变体。我们通过谱图卷积局部的一阶近似来实现我们的卷积体系结构的选择。我们的模型在图边的数量上呈线性扩展，并学习编码局部图结构和节点特征的隐藏层表示。在引文网络和知识图数据集上的许多实验中，我们证明了我们的方法显著优于相关方法。

1、介绍

我们考虑在图（如引文网络）中对节点（如文档）进行分类的问题，其中标签只适用于节点的一个小子集。这个问题可以被定义为基于图的半监督学习，其中标签信息通过某种形式的基于图的正则化在图上进行平滑(Zhu et al., 2003; Zhou et al., 2004; Belkin et al., 2006; Weston et al., 2012),，例如在损失函数中使用图拉普拉斯正则化项：
$L=L_0+λL_{reg}\quad ,with \ \ L_{reg}=\sum_{i,j}A_{i,j}||f(X_i)-f(X_j)||^2=f(X)^T∆f(X) \quad\quad1$

这里， $L_0$ 表示监督损失w.r.t.图中标记的部分， $f (.)$ 可以是一个神经网络类可微函数， $λ$ 是一个权重因子， $X$ 是一个节点特征向量 $X_i$ 组成的矩阵。 $∆ = D - A$ 表示N个节点无向图 $G = (V ， E)$ 的非标准化图，节点为 $v_i$ ∈V，边(vi，vj)∈E，邻接矩阵 $A∈R^{N×N}$ （二进制或加权）和度矩阵 $D^{ii}=\sum_j A_{ij}$ 。公式1依赖于图中连接的节点可能共享同一个标签的假设。然而，这种假设可能会限制建模能力，因为图边不一定需要编码节点相似性，但可能包含额外的信息。

在这项工作中，我们直接使用神经网络模型 $f (X, a)$ 对图结构进行编码，并对所有带有标签的节点的监督目标 $L_0$ 进行训练，从而避免了损失函数中显式的基于图的规则。对图的邻接矩阵进行条件 $f (\cdot)$ 将允许模型从监督损失 $l_0$ 中分配梯度信息，并使其能够学习有标签和没有标签的节点的表示。

我们的贡献是双重的。首先，我们介绍了一个简单而表现良好的分层传播规则，它直接作用于图，并展示了如何从谱图卷积的一阶近似中得到它(Hammondetal.，2011)。其次，我们演示了这种形式的基于图的神经网络模型如何用于图中节点的快速和可扩展的半监督分类。在许多数据集上的实验表明，我们的模型在分类精度和效率（以时间测量）方面都优于最先进的半监督学习方法。

2、图上的快速近似卷积

在本节中，我们将提供一个特定的基于图的神经网络模型 $f (X, A)$ 的理论动机，我们将在本文的其余部分中使用它。我们考虑了一个具有以下分层传播规则的多层图卷积网络(GCN)：
$H^{l+1}= σ(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{l} W^l)\quad\quad2$
这里， $\tilde{A}=A+I_N$ 是添加了自连接的无向图G的邻接矩阵。 $I_N$ 是单位矩阵， $\tilde{D}=\sum_{j}\tilde{A}_{i,j}$ 和 $W^L$ 是一个具有特定层的可训练权重矩阵。σ(·)表示一个激活函数，如ReLU(·)=max(0，·)。 $H^l∈R^{N×D}$ 是第 $l$ 层激活矩阵；H（0）=x。在下面，我们证明了这个传播规则的形式可以通过图谱上的局部谱滤波器的一阶近似来激发（(Hammond et al., 2011; Defferrard et al., 2016）

2.1 谱图卷积

我们定义谱卷积为多个信号 $x∈R^N$ （每个节点的标量）与在傅里叶域中由 $θ∈R^N$ 参数化的滤波器 $g θ = d ia g (θ)$ 的乘积，即:
$gθ\star x=UgθU^Tx \quad\quad3$
其中U为归一化图拉普拉斯行列式 $L=I_N − D^{−\frac{1}{2}} A ^{−\frac{1}{2}} =UΛU^T$ 中的特征向量矩阵，其对角矩阵的特征值Λ和 $U^Tx$ 为x的图傅里叶变换。我们可以将gθ理解为L的特征值的函数，即gθ(Λ)。计算“等式”3的计算代价很高，因为与特征向量矩阵U的乘法是 $O(n^2)$ 。此外，首先计算L的特征分解对于大型图来说可能是非常昂贵的。为了解决这个问题，Hammond等人（2011）提出，gθ（Λ）可以很好地近似为切比雪夫多项式Tk(x)的截断展开，直到K阶：
$\approx \sum_{k=0}^K θ'_k T_k (\tilde{Λ}) \quad\quad4$
与一个重新调整的 $\tilde{Λ}= \frac{2}{λ_{max}} - I_N$ , $λ_{max}$ 表示L的最大特征值， $θ'∈R^K$ 现在是切比雪夫系数的一个向量。切比雪夫多项式被递归地定义为 $T_k(x)=2x T_{k−1}(x)−T_{k−2}(x)$ ，其中 $T_0(x)=1$ 和 $T_1(x)=x$ 。读者可以参考Hammond等人（2011）对这种近似的深入讨论。

回到我们对信号x与滤波器gθ’的卷积的定义，我们现在有：
$gθ'\star x \approx \sum_{k=0}^K θ'_k T_k (\tilde{Λ}) \quad\quad5$
根据 $\tilde{L}= \frac{2}{λ_{max}}L − I_N$ ,这可以很容易地通过使用到 $UΛU^T)^k=UΛ^kU^T$ 来验证。注意，这个表达式现在是K局部的，因为它是拉普拉斯行列式中的一个K阶多项式，也就是说，它只依赖于距离中心节点最大K阶的节点(K阶邻域)。评估等式的复杂性5是O(|E|)，即边数的线性关系。Defferrard等人（2016）使用这种k局部卷积来定义图上的卷积神经网络。

2.2 层线性模型

因此，可以通过叠加等式形式的多个卷积层来建立基于图卷积的神经网络模型5、每一层之后都是一个点向的非线性。现在，假设我们将层级卷积操作限制为K=1(见等式5)，即一个是线性w.r.t.的函数因此是图拉普拉斯谱上的一个线性函数。

这样，我们仍然可以通过叠加多个这样的层来实现复杂的卷积滤波函数，但我们不局限于切比雪夫多项式给出的显式参数化。我们直观地期望，这种模型可以缓解节点度分布非常宽的图的局部邻域结构的超拟合问题，如社交网络、引文网络、知识图和许多其他真实世界的图数据集。此外，对于固定的计算预算，这种分层线性公式允许我们建立更深层次的模型，这种实践已知可以提高许多领域的建模能力(Heetal.，2016)。

在这个GCN的线性公式中，我们进一步近似于 $λ_{max}≈2$ ，因为我们可以预期，神经网络参数将在训练过程中适应这种规模的变化。在这些近似下，等式5可简化为：
$gθ'\star x \approx θ'_0x + θ'_1 (L − I_N ) x \approx θ'_0x - θ'_1 D^{−\frac{1}{2}} A D^{−\frac{1}{2}} x \quad\quad6$
有两个自由参数 $θ'_0$ 和 $θ'_1$ 。过滤器参数可以在整个图上共享。连续应用这种形式的滤波器，然后有效地卷积一个节点的k阶邻域，其中k是神经网络模型中连续的滤波操作或卷积层的数量。

在实践中，进一步限制参数的数量以解决过拟合和最小化每层的操作数（如矩阵乘法）是有益的。这就给我们留下了以下的表达式：
$gθ'\star x \approx θ'(I_N +D^{−\frac{1}{2}} A D^{−\frac{1}{2}}) x \quad\quad7$

使用一个参数 $θ=θ'_0=θ'_1$ ,请注意，在 $I_N +D^{−\frac{1}{2}} A D^{−\frac{1}{2}}$ 现在的特征值在[0,2]的范围内。因此，当在深度神经网络模型中使用时，重复应用该算子会导致数值不稳定和爆炸/消失的梯度。为了缓解这个问题，我们引入了以下重整化技巧：在 $I_N +D^{−\frac{1}{2}} A D^{−\frac{1}{2}}$ → $D^{−\frac{1}{2}} \tilde{A} D^{−\frac{1}{2}}$ ，其中 $\tilde{A} =A+I_N$ , $\tilde{D} _{ij}=\sum_{j}A_{ij}$ 。

我们可以将这个定义推广到一个信号 $X∈R^{N×C}$ ，具有C输入通道(即每个节点的C维特征向量)和F滤波器或特征映射如下：
$Z=D^{−\frac{1}{2}} A D^{−\frac{1}{2}} X Θ \quad\quad8$
其中， $Θ∈R^{C×F}$ 是一个滤波器参数的矩阵， $Z∈R^{N×F}$ 是卷积信号矩阵。这种滤波操作的复杂度为 $O (∣ E ∣ FC)$ ，因为 $\tilde{A}X$ 可以有效地实现为稀疏矩阵与密集矩阵的乘积。

3、半监督节点分类

引入了一个简单而灵活的模型 $f (X, A)$ ，用于在图上有效的信息传播，我们可以回到半监督节点分类问题。正如引言中所概述的，我们可以通过调整我们的模型 $f (X, A)$ ，来放松在基于图的半监督学习中所做的某些假设。我们期望这种设置在邻接矩阵包含数据X中不存在的信息的场景中特别强大，例如引文网络中的文档之间的引文链接或知识图中的关系。整个模型是一个用于半监督学习的多层GCN，如图1所示

3.1 示例

下面，我们考虑一个在具有对称邻接矩阵a（二值矩阵或加权矩阵）的图上的半监督节点分类的两层GCN。我们首先在预处理步骤中计算
$\hat{A}=\tilde{D}^{−\frac{1}{2}} \tilde{A} \tilde{D}^{−\frac{1}{2}} X Θ$
我们的正向模型采用简单的形式：
$softmax(\hat{A}\ ReLU(\hat{A}X^{W0} ) W^{1}) \quad\quad9$
在这里插入图片描述
这里， $W^0∈R^{C×H}$ 是一个带有H特征映射的隐层的输入到隐权矩阵。 $W^1∈R^{H×F}$ 是一个隐藏的输出权重矩阵。softmax为常见的多分类激活函数，以交叉熵误差进行训练。

采用梯度下降法训练神经网络权值 $W^0$ 和 $W^1$ 。在这项工作中，我们对每个训练迭代使用完整的数据集执行批处理梯度下降，这是一个可行的选择，只要数据集适合内存。使用a的稀疏表示，内存需求是O(|E|)，即边数的线性关系。训练过程中的随机性是通过退出引入的(Srivastavaetal.，2014)。我们将记忆效率高的扩展与小批量随机梯度下降留给未来的工作。

3.2 实施

在实践中，我们使用TensorFlow(Abadietal.，2015)实现基于gpu实现了公式9的稀疏密集的矩阵乘法。公式9的计算复杂度为O(|E|CHF)，即图边数呈线性。

4、相关工作

我们的模型从基于图的半监督学习领域和最近在图上操作的神经网络的工作中获得了灵感。在下面的内容中，我们将简要概述这两个领域的相关工作。

4.1 基于图的半监督学习

近年来，人们提出了大量使用图表示的半监督学习方法，其中大多数可分为两大类：使用某种形式的显式图拉普拉斯正则化的方法和基于图嵌入的方法。图拉普拉斯正则化的突出例子包括标签传播(Zhu等人，2003年)、流形正则化(Belkin等人，2006年)和深度半监督嵌入(Westonetal.，2012年)。

最近，人们的注意力已经转移到使用受跳图模型启发的方法学习图嵌入的模型上(Mikolovetal.，2013)。DeepWalk(Perozzi等人etal.，2014)通过预测节点的局部邻域来学习嵌入，从图上的随机游走中采样。LINE(Tang等人，2015)和node2vec(Grover&Leskovec，2016)通过更复杂的随机行走或宽度优先搜索方案扩展了深度行走。然而，对于所有这些方法，都需要一个包括随机游走生成和半监督训练在内的多步骤管道，其中每个步骤都必须单独进行优化。Planetoid(Yangetal.，2016)通过在学习嵌入过程中注入标签信息来缓解这一问题。

4.3 图神经网络

Gori等人（2005）曾介绍了基于图操作的神经网络；Scarselli等人（2009）作为递归神经网络的一种形式。他们的框架要求重复应用收缩映射作为传播函数，直到节点表示达到一个稳定的不动点。后来，Li等人（2016）通过在原始的图神经网络框架中引入递归神经网络训练的现代实践，缓解了这一限制。Duvenaud等人（2015）介绍了图上的类卷积传播规则和图级分类方法。他们的方法需要学习特定于节点度的权重矩阵，这些权重矩阵不能扩展到具有宽节点度分布的大图。相反，我们的模型每层使用一个单一的权值矩阵，并通过对邻接矩阵的适当归一化来处理不同的节点度（见第3.1节）。

最近，Atwood&Towsley（2016）引入了一种使用基于图的神经网络进行节点分类的相关方法。它们报告了O(n2)的复杂性，限制了可能的应用范围。在一个不同但相关的模型中，Niepert等人（2016）将图局部转换为序列，并将这些序列输入传统的一维卷积神经网络，这需要在预处理步骤中定义节点排序。

我们的方法是基于谱图卷积神经网络，在Bruna等人（2014）中引入，后来由Defferrard等人（2016）扩展为快速局部卷积。与这些工作相反，我们在这里考虑在明显更大规模的网络内的转换节点分类的任务。我们表明，在这种情况下，可以在Bruna等人（2014）和Defferrard等人（2016）的原始框架中引入一些简化方法（见第2.2节），以提高大规模网络中的可伸缩性和分类性能。

5、实验

5.1 数据集

我们密切遵循了Yang等人（2016）的实验设置。表1总结了数据集的统计数据。在引文网络数据集——Citeseer，Cora和Pubmed(Senetal.，2008)数据中——节点是文档，边是引文链接。标签率表示用于训练的标记节点数除以每个数据集中的节点总数。NELL(Carlson等人，2010；Yang等人，2016)是一个从具有55,864个关系节点和9,891个实体节点的知识图中提取的二部图数据集。
在这里插入图片描述
引文网络: 我们考虑了三个引文网络数据集：Citeseer，Cora和Pubmed(Senetal.，2008)。这些数据集包含每个文档的稀疏词袋特征向量和文档之间的引文链接列表。我们将引文链接视为（无向）边，并构造一个二进制的对称邻接矩阵a。每个文档都有一个类标签。在训练中，我们每个类只使用20个标签，但所有的特征向量。
NELL: NELL是从(Carlsonetal.，2010)中引入的知识图中提取的数据集。知识图是一组与有向的、有标记的边（关系）连接的实体。我们遵循Yang等人（2016）中描述的预处理方案。我们为每个实体对（ $e_1$ 、r、 $e_2$ ）分配单独的关系节点r1和r2为（ $e_1$ 、 $r_1$ ）和（ $e_2$ 、 $r_2$ ）。实体节点用稀疏特征向量来描述。我们通过为每个关系节点分配一个唯一的单热表示，扩展了NELL中的特征数量，有效地为每个节点提供了61,278维的稀疏特征向量。这里的半监督任务考虑了在训练集中每个类只有一个有标记的例子的极端情况。如果节点i和节点j之间存在一条或多条边，我们通过设置项 $A_{ij}$ =1从这个图构造一个二进制对称邻接矩阵。
Random graphs: 我们模拟不同大小的随机图数据集进行实验，其中我们测量每个历元的训练时间。对于具有N个节点的数据集，我们创建一个随机图，均匀随机地分配2条N条边。我们将单位矩阵 $I_N$ 作为输入特征矩阵X，从而隐式地采用一种无特征的方法，其中模型只知道每个节点的恒等式，由一个唯一的单热向量指定。我们为每个节点添加虚拟标签 $Y_i=1$ 。

5.2 实验设置

除非另有说明，我们训练一个如第3.1节所述的两层GCN，并在1000个标记示例的测试集上评估预测精度。我们提供额外的实验使用更深层次的模型多达10层附录b我们选择相同的数据集分裂杨等al.（2016）与额外的验证集500标记的超参数优化例子(dropout，第一GCN层的L2正规化因子和隐藏单元的数量)。我们不使用验证集数据来进行训练。

对于引文网络数据集，我们只优化了Cora上的超参数，并对Citeseer和Pubmed使用相同的参数集。我们使用Adam(Kingma&Ba，2015)对所有模型进行最多200个周期（训练迭代），学习率为0.01，早期停止窗口大小为10，即如果验证损失连续10个周期没有减少，我们停止训练。我们使用Glorot&Bengio（2010）中描述的初始化来初始化权值，并相应地（row-）对输入特征向量进行规范化。在随机图数据集上，我们使用了32个单位的隐藏层大小，并省略了正则化(即既不使用退出，也不使用l2正则化)。

5.3 基准

我们与Yang等人（2016）相同的基线方法进行比较，即标签传播(LP)（朱等人，2003）、半监督嵌入(Semiemb)（韦斯顿等人，2012）、流形正则化(ManiReg)（贝尔金等人，2006）和基于跳跃格的图嵌入(DeepWalk)（Perozzi等人，2014）。我们省略了TSVM(Joachims，1999)，因为它不能扩展到我们的一个数据集中的大量类。

我们进一步比较了Lu&Getoor（2003）中提出的迭代分类算法(ICA)，结合两个逻辑回归分类器，一个单独用于局部节点特征，一个用于使用局部特征和Senetal.（2008）中描述的关系分类。我们首先使用所有有标记的训练集节点来训练局部分类器，并使用它来引导未有标记节点的类标签来进行关系分类器训练。我们在所有未标记的节点上运行迭代分类（关系分类器），使用随机节点排序进行10次迭代（使用本地分类器进行引导）。L2正则化参数和聚合算符(计数vs.prop，见Sen等人（2008）)是根据每个数据集的验证集性能分别选择的。

最后，我们将其与Planetoid(Yangetal.，2016)进行比较，在那里，我们总是选择它们表现最好的模型变体(transductive vs. inductive)作为基线。

6、结果

6.1 半监督节点分类

结果汇总见表2。报告的数字以百分比表示分类准确率。对于ICA，我们报告了100次随机节点排序运行的平均精度。所有其他基线方法的结果均来Planetoid的论文(Yangetal.，2016)。Planetoid*表示在论文中给出的变体中各自数据集的最佳模型。
在这里插入图片描述
我们进一步报告了训练时间，直到我们的方法收敛（括号内）。验证误差的评估)和Planetoid。对于后者，我们使用了作者3提供的一个实现，并在与我们的GCN模型相同的硬件(使用GPU)上进行训练。我们在与Yang等人（2016）相同的数据集分割上训练和测试了我们的模型，并报告了使用随机权值初始化的100次运行的平均准确性。我们为Citeseer、Cora和Pubmed使用了以下超参数集：0.5（dropout rate）， $5·10^{−4}$ (L2正则化)和16（隐藏单元数量）；对于NELL：0.1（dropout rate）， $5·10^{−5}$ (L2正则化)和64（隐藏单元数）。

此外，我们报告了我们的模型在10个随机抽取的数据集（2016）大小相同的数据集分割上的性能，用GCN(rand表示。劈叉在这里，我们报告了平均和标准的预测精度误差的测试集分割百分比。

6.2 传播模型评价

我们比较了在引文网络数据集上，我们提出的每层传播模型的不同变体。我们遵循上一节中描述的实验设置。结果汇总见表3。我们原来的GCN模型的传播模型用重整化技巧（粗体）表示。在所有其他情况下，两个神经网络层的传播模型都被传播模型下指定的模型所取代。报告的数字表示使用随机权重矩阵初始化的100次重复运行的平均分类精度。在每层有多个变量Θi的情况下，我们对第一层的所有权值矩阵施加L2正则化。
在这里插入图片描述

7、每个时代的训练时间

在这里，我们报告了在模拟随机图上100个时代的平均训练时间（forward pass, cross-entropy
calculation, backward pass）的结果，以秒挂钟时间测量。有关这些实验中使用的随机图数据集的详细描述，请参见第5.1节。我们比较了在GPU和仅cplu实现4上的结果(Abadietal.，2015)。图2总结了这些结果。
在这里插入图片描述

7、讨论

7.1 半监督模型

在这里展示的实验中，我们的半监督节点分类方法显著优于最近的相关方法。基于图-拉普拉斯正则化的方法(Zhu等人，2003；Belkin等人，2006；Weston等人，2012)很可能是有限的，因为他们假设边仅仅编码节点的相似性。另一方面，基于跳过图的方法由于其基于难以优化的多步骤管道而受到限制。我们提出的模型可以克服这两个限制，同时在识别效率（以墙时钟时间测量）方面仍然比较相关方法。与ICA(Lu&Getoor，2003)等方法相比，从每层相邻节点传播特征信息提高了算法的分类性能。

我们进一步证明了所提出的重整化传播模型(公式8)与新的一阶模型(公式6)与一阶模型相比，在许多数据集上的预测性能(公式6)或高阶图卷积模型使用切比雪夫多项式，两者都提高了效率（更少的参数和操作，如乘法或加法），并且在许多数据集上的预测性能更好。

7.2 极限和未来的工作

在这里，我们描述了我们当前模型的几个限制，并概述了如何在未来的工作中克服这些限制。

内存需求 在当前的全批处理梯度下降设置中，内存需求随着数据集的大小呈线性增长。我们已经证明，对于不适合GPU内存的大型图形，对CPU进行训练仍然是一个可行的选择。小批量随机梯度下降可以缓解这一问题。然而，生成小批量的过程应该考虑到GCN模型中的层数，因为具有K层的GCN的K阶邻域必须存储在内存中，以实现一个精确的过程。对于非常大和紧密连接的图数据集，可能需要进行进一步的近似。

有向边和边缘特征 我们的框架目前并不自然地支持边缘特征，并且仅限于无向图（加权或未加权）。然而，NELL上的结果表明，通过将原始有向图表示为一个无向二部图中的边，附加节点可以处理有向边和边特征（详见5.1节）。

限制推断 通过第2节中引入的近似，我们隐式地假设局部性(依赖于具有K层的GCN的k阶邻域)和对相邻节点的自连接与边的同等重要性。然而，对于某些数据集，在 $\hat{A}$ 的定义中引入一个权衡参数λ可能是有益的：
$\hat{A}=A+ λI_N$
在典型的半监督设置中，这个参数现在与监督损失和非监督损失之间的权衡参数起着类似的作用(见公式1).然而，在这里，它可以通过梯度下降来学习。

8、总结

我们介绍了一种新的图结构数据的半监督分类方法。我们的GCN模型使用了一个有效的分层传播规则，该规则基于图上的谱卷积的一阶近似。在许多网络数据集上的实验表明，所提出的GCN模型能够同时对图的结构和节点特征进行编码，并可用于半监督分类。在这种情况下，我们的模型在计算效率上显著优于最近提出的几种方法，同时也非常高效。

论文阅读：SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS