图卷积网络的理解

最近工作涉及到图像识别，属于轮廓式的图像（非猫狗这些丰富色彩的的object，而是类似建筑图这种），恰好用到GCN。

图像识别是目前的一个研究热点，基于CNN模型在很多图像识别领域有比较好的效果，但在非二维方格或三维方格、轮廓式的图像领域也可以尝试其他方法，比如GCN（graph convolution network）。

这里汇总下GCN所涉及的相关知识点，做一个总结！

A：代表邻接矩阵，X：代表节点的特征矩阵，D：代表节点的度矩阵，S：代表相似矩阵，

矩阵的秩：矩阵行数目，

graph节点集合V_1（V_1属于V）的体积vol(A_1)：节点集合A_1中全部节点度之和。

一、深度学习基本理论

（1）数学上卷积（为什么是卷？）和深度学习图像上卷积的区别：

卷积f*g，数学上需要需要g先反转，再和f对应位置相乘求和；而图像上卷积g起空间过滤器作用，对f局部过滤。

f和g的卷积表示为：(f*g)(n)

二维离散卷积的定义如下：

数学上连续卷积定义：

数学上离散卷积定义：

数学上卷积应用举例：

示例1：独立随机事件A和B，指定发生次数N的概率：(f*g)(4)=累加求和{f(i)g(N-i)}

示例2：对于图像上的噪声点，通过噪声点周边的信息对噪声进行替代，实现去燥。

（2）邻居节点对当前节点加权的途径：

1）加权平均法

考虑节点i的邻接节点（不考虑节点i本身）

考虑节点i的邻接节点和节点i本身

2）归一化的加权平均法（加权时候考虑度的影响）

缺点：只考虑了节点i本身的度大小

3）对称归一化的加权平均法（去除邻居节点j的度的影响）

定义

综合考虑节点i和邻居节点j的度大小的影响

（3）什么是拉普拉斯矩阵

（4）热力学传播理论

（laplacian变换和热力学传播的关系）

前提常识：

常识1：在一个拓扑（可能是二维直线、网络、也可能是三维立体）中，某一点i处的某种状态（比如温度或信息）随时间t变化的速率，正比于该点i的状态与附近节点j的状态的差值（其实就是节点i和邻居节点j的状态分布）。

常识2：离线空间中的一阶差分等价于连续空间中的一阶导数，二阶差分等价于连续空间中的二阶导数。

常识3：二维空间总的二阶导数推广到多维空间，就是多维偏导数。

状态Q随时间t的微分方程：

公式1：

（连续欧式空间）

，（称为拉普拉斯算子）代表Q对各个坐标求解二阶导数，再求和。

公式2：

==》 ==》

思想1：数学上的解析解或机器学习中的迭代求解（假定t是离散的）

思想2：邻居节点和本节点的状态的加和性质（类似于Aggregate）

（5）Fourier分解或变换

二、图谱理论

（1）节点之间的权重（相似度）

1）阀值法：节点i和j之间的欧式距离小于阀值，则说明相似，否则不相似；权重即为阀值。

2）K近邻法：

节点i的所有K个邻居节点之间的权重大于0，否则为0。
节点j是节点i的邻居节点，则i和j之间权重大于0，否则为0。
有且节点j是节点i的邻居节点，节点i也是节点j的邻居节点，则i和j之间的权重大于0，否则为0。

3）全连接法：即相邻2个节点之间的权重固定为1，否则为0。

权重定义主要采用核函数方法：多项式核函数、高斯核函数、RBF核函数（）。

（2）拉普拉斯矩阵

形式：

性质：

1）实对称矩阵，也是半正定矩阵，所有的特征值都是大于等于0的实数，且最小的特征值为0.。

2）对于任意向量函数f，有

三、谱聚类算法

思想：

方法：

步骤：

step1：计算标准化后的拉普拉斯矩阵

step2：SVD对拉普拉斯矩阵分解，得到特征向量

step3：使用聚类算法对得到的【k个小的特征向量】进行聚类。

四、基于图结构、半监督的现有方法：

半监督：部分节点有label，大部分节点没有label

（1）基于平滑正则的标准方法（模型的表达能力受限）

原理：相邻节点具有相似的label

第一项是fiitting error，代表在标记数据上的误差；第二项是平滑正则，节点的权重越大，说明节点越相关。

（2）基于embedding的方法（embedding和分类器是分开学习，前后步骤不一定都是最优的）

首先，学习节点的embeddng表示；然后，训练一个常见的分类器

举例：DeepWalk、node2vec

上述方法缺点：无法end-to-end

五、图卷积网络GCN

图卷积的思想：利用边的信息对节点进行聚合，生成新的节点。

开创性的paper：Semi-Supervised Classification with Graph Convolutional Networks

对于L层的神经网络，学习过程为（考虑邻居节点的feature，但没有考虑自身节点的feature）：

，其中

trick1：每个节点i，加上自环，即A=A + I

trick2：对邻接矩阵归一化：

传播rule为：

理论依据1：经典的Weisfeiler-Lehman algorithm，propagation rule解释为一种特殊的hash function

理论依据2：根据Spectral Graph Theory推导

tensorflow实现：

对称归一化等价于矩阵式聚合

加权平均等价于消息式聚合

参考文献：

https://www.zhihu.com/question/54504471

https://www.cnblogs.com/pinard/p/6221564.html

-- over --

qm006

发布了64 篇原创文章 · 获赞 24 · 访问量 4万+

私信关注