原作者及链接：https://www.cnblogs.com/SivilTaram/p/graph_neural_network_2.html

从图(Graph)到图卷积(Graph Convolution)：漫谈图神经网络模型 (二)

本文属于图神经网络的系列文章，文章目录如下：

在上一篇博客中，我们简单介绍了基于循环图神经网络的两种重要模型，在本篇中，我们将着大量笔墨介绍图卷积神经网络中的卷积操作。接下来，我们将首先介绍一下图卷积神经网络的大概框架，借此说明它与基于循环的图神经网络的区别。接着，我们将从头开始为读者介绍卷积的基本概念，以及其在物理模型中的涵义。最后，我们将详细地介绍两种不同的卷积操作，分别为空域卷积和时域卷积，与其对应的经典模型。读者不需有任何信号处理方面的基础，傅里叶变换等概念都会在本文中详细介绍。

图卷积缘起#

在开始正式介绍图卷积之前，我们先花一点篇幅探讨一个问题：为什么研究者们要设计图卷积操作，传统的卷积不能直接用在图上吗？ 要理解这个问题，我们首先要理解能够应用传统卷积的图像(欧式空间)与图(非欧空间)的区别。如果把图像中的每个像素点视作一个结点，如下图左侧所示，一张图片就可以看作一个非常稠密的图；下图右侧则是一个普通的图。阴影部分代表卷积核，左侧是一个传统的卷积核，右侧则是一个图卷积核。卷积代表的含义我们会在后文详细叙述，这里读者可以将其理解为在局部范围内的特征抽取方法。

GGNN语义解析实例

仔细观察两个图的结构，我们可以发现它们之间有2点非常不一样：

在图像为代表的欧式空间中，结点的邻居数量都是固定的。比如说绿色结点的邻居始终是8个(边缘上的点可以做Padding填充)。但在图这种非欧空间中，结点有多少邻居并不固定。目前绿色结点的邻居结点有2个，但其他结点也会有5个邻居的情况。
欧式空间中的卷积操作实际上是用固定大小可学习的卷积核来抽取像素的特征，比如这里就是抽取绿色结点对应像素及其相邻像素点的特征。但是因为图里的邻居结点不固定，所以传统的卷积核不能直接用于抽取图上结点的特征。

真正的难点聚焦于邻居结点数量不固定上。那么，研究者如何解决这个问题呢？其实说来也很简单，目前主流的研究从2条路来解决这件事：

提出一种方式把非欧空间的图转换成欧式空间。
找出一种可处理变长邻居结点的卷积核在图上抽取特征。

这两条实际上也是后续图卷积神经网络的设计原则，图卷积的本质是想找到适用于图的可学习卷积核。

图卷积框架(Framework)#

上面说了图卷积的核心特征，下面我们先来一窥图卷积神经网络的全貌。如下图所示，输入的是整张图，在Convolution Layer 1里，对每个结点的邻居都进行一次卷积操作，并用卷积的结果更新该结点；然后经过激活函数如ReLU，然后再过一层卷积层Convolution Layer 2与一层激活函数；反复上述过程，直到层数达到预期深度。与GNN类似，图卷积神经网络也有一个局部输出函数，用于将结点的状态(包括隐藏状态与结点特征)转换成任务相关的标签，比如水军账号分类，本文中笔者称这种任务为Node-Level的任务；也有一些任务是对整张图进行分类的，比如化合物分类，本文中笔者称这种任务为Graph-Level的任务。卷积操作关心每个结点的隐藏状态如何更新，而对于Graph-Level的任务，它们会在卷积层后加入更多操作。本篇博客主要关心如何在图上做卷积，至于如何从结点信息得到整张图的表示，我们将在下一篇系列博客中讲述。

图卷积神经网络全貌

多说一句，GCN与GNN乍看好像还挺像的。为了不让读者误解，在这里我们澄清一下它们根本上的不同：GCN是多层堆叠，比如上图中的Layer 1和Layer 2的参数是不同的；GNN是迭代求解，可以看作每一层Layer参数是共享的。

卷积(Convolution)#

正如我们在上篇博客的开头说到的，图卷积神经网络主要有两类，一类是基于空域的，另一类则是基于频域的。通俗点解释，空域可以类比到直接在图片的像素点上进行卷积，而频域可以类比到对图片进行傅里叶变换后，再进行卷积。傅里叶变换的概念我们先按下不讲，我们先对两类方法的代表模型做个大概介绍。

基于空域卷积的方法直接将卷积操作定义在每个结点的连接关系上，它跟传统的卷积神经网络中的卷积更相似一些。在这个类别中比较有代表性的方法有 Message Passing Neural Networks(MPNN)[1], GraphSage[2], Diffusion Convolution Neural Networks(DCNN)[3], PATCHY-SAN[4]等。

基于频域卷积的方法则从图信号处理起家，包括 Spectral CNN[5], Cheybyshev Spectral CNN(ChebNet)[6], 和 First order of ChebNet(1stChebNet)[7]等。

在介绍这些具体的模型前，先让我们从不同的角度来回顾一下卷积的概念，重新思考一下卷积的本质。

基础概念#

由维基百科的介绍我们可以得知，卷积是一种定义在两个函数(

(f * g) (t) = \int \infty - \infty f (τ) g (t - τ) (连 续 形 式)

(f * g) (t) = \sum \infty τ = - \infty f (τ) g (t - τ) (离 散 形 式)

实例:掷骰子问题#

光看数学定义可能会觉得非常抽象，下面我们举一个掷骰子的问题，该实例参考了知乎问题"如何通俗易懂地解释卷积"[8]的回答。

想象我们现在有两个骰子，两个骰子分别是

最后这三种情况出现的概率和即问题的答案，如果写成公式，就是

卷积基本概念

如果稍微扩展一点，比如说我们认为

对应到不同方面，卷积可以有不同的解释：

信号处理中的卷积

深度学习中的卷积

空域卷积(Spatial Convolution)#

介绍完卷积的基础概念后，我们先来介绍下空域卷积(Spatial Convolution)。从设计理念上看，空域卷积与深度学习中的卷积的应用方式类似，其核心在于聚合邻居结点的信息。比如说，一种最简单的无参卷积方式可以是：将所有直连邻居结点的隐藏状态加和，来更新当前结点的隐藏状态。

最简单的空域卷积

这里非参式的卷积只是为了举一个简单易懂的例子，实际上图卷积在建模时需要的都是带参数、可学习的卷积核。

消息传递网络(Message Passing Neural Network)#

消息传递网络(MPNN)[1] 是由Google科学家提出的一种模型。严格意义上讲，MPNN不是一种具体的模型，而是一种空域卷积的形式化框架。它将空域卷积分解为两个过程：消息传递与状态更新操作，分别由

h l + 1 v = U l + 1 (h v, \sum u \in n e [v] M l + 1

其中

如果读者还记得GGNN的话，可能会觉得这个公式与GGNN的公式很像。实际上，它们是截然不同的两种方式：GCN中通过级联的层捕捉邻居的消息，GNN通过级联的时间来捕捉邻居的消息；前者层与层之间的参数不同，后者可以视作层与层之间共享参数。MPNN的示意图如下[11]：

MPNN网络模型

图采样与聚合(Graph Sample and Aggregate)#

MPNN很好地概括了空域卷积的过程，但定义在这个框架下的所有模型都有一个共同的缺陷：卷积操作针对的对象是整张图，也就意味着要将所有结点放入内存/显存中，才能进行卷积操作。但对实际场景中的大规模图而言，整个图上的卷积操作并不现实。GraphSage[2]提出的动机之一就是解决这个问题。从该方法的名字我们也能看出，区别于传统的全图卷积，GraphSage利用采样(Sample)部分结点的方式进行学习。当然，即使不需要整张图同时卷积，GraphSage仍然需要聚合邻居结点的信息，即论文中定义的aggregate的操作。这种操作类似于MPNN中的消息传递过程。

GraphSage采样过程

具体地，GraphSage中的采样过程分为三步:

在图中随机采样若干个结点，结点数为传统任务中的batch_size。对于每个结点，随机选择固定数目的邻居结点(这里邻居不一定是一阶邻居，也可以是二阶邻居)构成进行卷积操作的图。
将邻居结点的信息通过
计算采样结点处的损失。如果是无监督任务，我们希望图上邻居结点的编码相似；如果是监督任务，即可根据具体结点的任务标签计算损失。

最终，GraphSage的状态更新公式如下：

h l + 1 v = σ (W l + 1 \cdot a g g r e g a t e (h l v, {h

GraphSage的设计重点就放在了

图结构序列化(PATCHY-SAN)#

我们之前曾提到卷积神经网络不能应用在图结构上是因为图是非欧式空间，所以大部分算法都沿着找到适用于图的卷积核这个思路来走。而 PATCHY-SAN 算法 [4] 另辟蹊径，它将图结构转换成了序列结构，然后直接利用卷积神经网络在转化成的序列结构上做卷积。由于 PATCHY-SAN在其论文中主要用于图的分类任务，我们下面的计算过程也主要针对图分类问题(例如，判断某个社群的职业)。

那么，图结构转换成序列结构最主要的挑战在何处呢，如果简单的话，为什么以前的工作没有尝试把图转成序列结构呢？就笔者个人的观点来看，这种序列转换要保持图结构的两个特点：1. 同构的性质。 2. 邻居结点的连接关系。对于前者而言，意味着当我们把图上结点的标号随机打乱，得到的仍应是一样的序列。简单来说就是，同构图产生的序列应当相似，甚至一样；对于后者，则意味着我们要保持邻居结点与目标结点的距离关系，如在图中的三阶邻居在序列中不应该成为一阶邻居等。

PATCHY-SAN 通过以下三个步骤来解决这两个问题：

结点选择(Node Squenece Selection)。该过程旨在与通过一些人为定义的规则(如度大的结点分数很高，邻居的度大时分数较高等)为每个结点指定一个在图中的排序。在完成排序后，取出前
邻居结点构造(Neighborhood graph construction)。在完成结点排序后，以第1步选择的结点为中心，得到它们的邻居(这里的邻居可以是第一阶邻居，也可以是二阶邻居)结点，就构成了
图规范化(Graph Noermalization)。按照每个团中的结点顺序可将所有团转换成固定长度的序列(

一个形象的流程图如下所示，图源自论文[4]。

Pathcy-san framework

下图可能可以帮助读者更好地理解这种算法，图来自[12]。整个流程自底向上：首先根据自定义规则对图里的结点进行排序，然后选择前6个结点，即图中的 1至6；接着我们把这些结点

Patchy-san 具体样例

频域卷积(Spectral Convolution)#

空域卷积非常直观地借鉴了图像里的卷积操作，但据笔者的了解，它缺乏一定的理论基础。而频域卷积则不同，相比于空域卷积而言，它主要利用的是图傅里叶变换(Graph Fourier Transform)实现卷积。简单来讲，它利用图的拉普拉斯矩阵(Laplacian matrix)导出其频域上的的拉普拉斯算子，再类比频域上的欧式空间中的卷积，导出图卷积的公式。虽然公式的形式与空域卷积非常相似，但频域卷积的推导过程却有些艰深晦涩。接下来我们将攻克这部分看起来很难的数学公式，主要涉及到傅里叶变换(Fourier Transform)和拉普拉斯算子(Laplacian operator)。即使读者没有学过任何相关知识也不要紧，笔者将尽可能用形象的描述解释每个公式的涵义，让读者能感悟这些公式的美妙之处。

前置内容#

如上所述，在本小节，我们将介绍两个主要的知识点：傅里叶变换与拉普拉斯算子。在介绍之前，我们先抛出两个问题：1. 什么是傅里叶变换; 2. 如何将傅里叶变换扩展到图结构上。这两个问题是前置内容部分要解决的核心问题，读者可带着这两个问题，完成下面内容的阅读。

傅里叶变换(Fourier Transform)#

借用维基百科的说法，傅里叶变换(Fourier Transform, FT)会将一个在空域(或时域)上定义的函数分解成频域上的若干频率成分。换句话说，傅里叶变换可以将一个函数从空域变到频域。先抛开傅里叶变换的数学公式不谈，用

(f * g) (t) = F - 1 [F [f (t)] ⊙ F [g (t)]]

这里的

傅里叶变换的示例

那傅里叶变换能干啥呢，有一个简单的应用是给图像去除一些规律噪点。比如说下面这个例子，原图来自知乎 [13]。

在傅里叶变换前，图像上有一些规律的条纹，直接在原图上去掉条纹有点困难，但我们可以将图片通过傅里叶变换变到频谱图中，频谱图中那些规律的点就是原图中的背景条纹。

傅里叶变换的示例

只要在频谱图中擦除这些点，就可以将背景条纹去掉，得到下图右侧的结果。

傅里叶变换的示例

除了可以用来分离噪声点与正常点，傅里叶变换还凭借上面的恒等式，在加速卷积运算方面有很大的潜力，快速傅里叶变换(Fast Fourier Transform)也是由此而生。实际上呢，现在大家最常用的卷积神经网络，完全可以搭配傅里叶变换。下面这张图就表示了一个普通的卷积神经网络如何与傅里叶变换搭配，其中的 IFFT 即 快速傅里叶变换的逆变换(Inverse Fast Fourier Transform：

傅里叶变换的示例

其实笔者在初识傅里叶变换时很好奇，既然FFT可以加速卷积神经网络，为什么现在的卷积神经网络不用呢? 在经过一些搜索与思考后，笔者将自己得到的结论抛砖引玉供读者参考：我们现在的卷积神经网络的核都很小，常见的都如1，3，5之类，卷积操作的时间开销本来就不大。如果要搭配FFT，还需要做傅里叶变换与逆变换，时间开销并不一定会减小。

说了这么半天，傅里叶变换的公式是什么样呢？实际上，

f^(t) = \int f (x) exp - 2 π i x t d x

感兴趣的同学可以深入研究一下傅里叶变换这一套，我们这里关心的实际上是

拉普拉斯算子(Laplacian operator) 的物理意义是空间二阶导，准确定义是：标量梯度场中的散度，一般可用于描述物理量的流入流出。比如说在二维空间中的温度传播规律，一般可以用拉普拉斯算子来描述。

为什么是特征函数呢，我们这里根据拉普拉斯算子的定义来稍微推导一下。众所周知，特征向量需要满足的定义式是：对于矩阵

A x = λ x

稍微推导一下即可知道，拉普拉斯算子作用在

Δ exp - 2 π i x t = \partial 2 \partial t 2 exp - 2 π i x t =

这里

实际上，再仔细观察傅里叶变换的式子，它本质上是将函数

图上的傅里叶变换#

终于讲到我们本节的重点内容了，上面我们絮絮叨叨地铺垫了很多傅里叶变换的知识，主要是为了将傅里叶变换类比到图上。那么问题来了:在图上，我们去哪找拉普拉斯算子

聪明的研究者们找到了图的拉普拉斯矩阵(L)及其特征向量(，作为上述两者的替代品。至此，形成了图上傅里叶变换的生态系统。拉普拉斯矩阵，实际上是度矩阵(D)减去邻接矩阵(A)

拉普拉斯矩阵

频域卷积的前提条件是图必须是无向图，那么

L = U Λ U T

U = (u 1, u 2, \dots, u n)

Λ = ⎡⎣⎢ λ 1 . . . 0 . . . . . . . . . 0 . . .

那么，根据上面卷积与傅里叶结合的变换公式，图上频域卷积的公式便可以写成

f^= ⎡⎣⎢⎢ f^(1) . . . f^(N) ⎤⎦⎥⎥ = U T f

让我们重新审视一下欧式空间上的卷积和图上的卷积，即可明白图上的卷积与传统的卷积其实非常相似，这里

(f * g) = F - 1 [F [f] ⊙ F [g]]

(f * G g) = U (U T f ⊙ U T g) = U (U T g ⊙ U T f)

如果把

o = (f * G g) θ = U g θ U T f

接下来我们要介绍的图上频域卷积的工作，都是在

频域卷积网络(Spectral CNN)#

我们上面推导的这个

h l + 1 :, j = σ (U \sum d l i = 1 Θ l i, j U T h

Θ l i, j = g θ = ⎡⎣⎢ θ 1 . . . 0 . . . . . .

仔细观察上式，可以发现一层卷积层参数有

示意图

切比雪夫网络(ChebNet)#

基本的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量，计算量巨大。在论文[16]中提出了切比雪夫网络，它应用切比雪夫多项式(Chebyshev polynomials)来加速特征矩阵的求解。假设切比雪夫多项式的第k项是

切比雪夫多项式是以递归方式定义的一系列正交多项式序列。
$g θ = \sum K - 1 k = 0 θ k T k (Λ ~), where Λ ~$

那么

参考文献#

[1]. Neural Message Passing for Quantum Chemistry, https://arxiv.org/abs/1704.01212

[2]. Inductive Representation Learning on Large Graphs, https://arxiv.org/abs/1706.02216

[3]. Diffusion-Convolutional Neural Networks, https://arxiv.org/abs/1511.02136

[4]. Learning Convolutional Neural Networks for Graphs, https://arxiv.org/pdf/1605.05273

[5]. Spectral Networks and Locally Connected Networks on Graphs, https://arxiv.org/abs/1312.6203

[6]. Convolutional neural networks on graphs with fast localized spectral filtering, https://papers.nips.cc/paper/6081-convolutional-neural-networks-on-graphs-with-fast-localized-spectral-filtering

[7]. Semi-Supervised Classification with Graph Convolutional Networks, https://arxiv.org/pdf/1609.02907

[8]. 如何通俗易懂地解释卷积, https://www.zhihu.com/question/22298352

[9]. https://en.wikipedia.org/wiki/Convolution

[10]. https://mlnotebook.github.io/post/CNN1/

[11]. http://snap.stanford.edu/proj/embeddings-www

[12]. https://zhuanlan.zhihu.com/p/37840709

[13]. https://www.zhihu.com/question/20460630/answer/105888045

[14]. https://en.wikipedia.org/wiki/Laplacian_matrix

[15]. Spectral Networks and Locally Connected Networks on Graphs
, https://arxiv.org/abs/1312.6203

[16]. Convolutional neural networks on graphs with fast localized spectral filtering, https://arxiv.org/abs/1606.09375

最后更新于 2019.08.05

本文属于图神经网络的系列文章，文章目录如下：

图卷积缘起#

GGNN语义解析实例

仔细观察两个图的结构，我们可以发现它们之间有2点非常不一样：

在图像为代表的欧式空间中，结点的邻居数量都是固定的。比如说绿色结点的邻居始终是8个(边缘上的点可以做Padding填充)。但在图这种非欧空间中，结点有多少邻居并不固定。目前绿色结点的邻居结点有2个，但其他结点也会有5个邻居的情况。
欧式空间中的卷积操作实际上是用固定大小可学习的卷积核来抽取像素的特征，比如这里就是抽取绿色结点对应像素及其相邻像素点的特征。但是因为图里的邻居结点不固定，所以传统的卷积核不能直接用于抽取图上结点的特征。

真正的难点聚焦于邻居结点数量不固定上。那么，研究者如何解决这个问题呢？其实说来也很简单，目前主流的研究从2条路来解决这件事：

提出一种方式把非欧空间的图转换成欧式空间。
找出一种可处理变长邻居结点的卷积核在图上抽取特征。

这两条实际上也是后续图卷积神经网络的设计原则，图卷积的本质是想找到适用于图的可学习卷积核。

图卷积框架(Framework)#

图卷积神经网络全貌