图卷积网络的理解

最近工作涉及到图像识别,属于轮廓式的图像(非猫狗这些丰富色彩的的object,而是类似建筑图这种),恰好用到GCN。

图像识别是目前的一个研究热点,基于CNN模型在很多图像识别领域有比较好的效果,但在非二维方格或三维方格、轮廓式的图像领域也可以尝试其他方法,比如GCN(graph convolution network)。

这里汇总下GCN所涉及的相关知识点,做一个总结!

A:代表邻接矩阵,X:代表节点的特征矩阵,D:代表节点的度矩阵,S:代表相似矩阵,

矩阵的秩:矩阵行数目,

graph节点集合V_1(V_1属于V)的体积vol(A_1):节点集合A_1中全部节点度之和。


一、深度学习基本理论

(1)数学上卷积(为什么是卷?)和深度学习图像上卷积的区别:

卷积f*g,数学上需要需要g先反转,再和f对应位置相乘求和;而图像上卷积g起空间过滤器作用,对f局部过滤。

f和g的卷积表示为:(f*g)(n)

二维离散卷积的定义如下:

数学上连续卷积定义:

数学上离散卷积定义:

数学上卷积应用举例:

示例1:独立随机事件A和B,指定发生次数N的概率:(f*g)(4)=累加求和{f(i)g(N-i)}

示例2:对于图像上的噪声点,通过噪声点周边的信息对噪声进行替代,实现去燥。

(2)邻居节点对当前节点加权的途径:

1)加权平均法

考虑节点i的邻接节点(不考虑节点i本身)

考虑节点i的邻接节点和节点i本身

2)归一化的加权平均法(加权时候考虑度的影响)

缺点:只考虑了节点i本身的度大小

3)对称归一化的加权平均法(去除邻居节点j的度的影响)

定义

综合考虑节点i和邻居节点j的度大小的影响

(3)什么是拉普拉斯矩阵

(4)热力学传播理论

(laplacian变换和热力学传播的关系)

前提常识:

常识1:在一个拓扑(可能是二维直线、网络、也可能是三维立体)中,某一点i处的某种状态(比如温度或信息)随时间t变化的速率,正比于该点i的状态与附近节点j的状态的差值(其实就是节点i和邻居节点j的状态分布)。

常识2:离线空间中的一阶差分等价于连续空间中的一阶导数,二阶差分等价于连续空间中的二阶导数。

常识3:二维空间总的二阶导数推广到多维空间,就是多维偏导数。

状态Q随时间t的微分方程:

公式1:

(连续欧式空间)

(称为拉普拉斯算子)代表Q对各个坐标求解二阶导数,再求和。

公式2:

 ==》  ==》 

思想1:数学上的解析解 或 机器学习中的迭代求解(假定t是离散的)

思想2:邻居节点和本节点的状态的加和性质(类似于Aggregate)

(5)Fourier分解或变换

二、图谱理论

(1)节点之间的权重(相似度)

1)阀值法:节点i和j之间的欧式距离小于阀值,则说明相似,否则不相似;权重即为阀值。

2)K近邻法:

  • 节点i的所有K个邻居节点之间的权重大于0,否则为0。
  • 节点j是节点i的邻居节点,则i和j之间权重大于0,否则为0。
  • 有且节点j是节点i的邻居节点,节点i也是节点j的邻居节点,则i和j之间的权重大于0,否则为0。

3)全连接法:即相邻2个节点之间的权重固定为1,否则为0。

权重定义主要采用核函数方法:多项式核函数、高斯核函数、RBF核函数()。

(2)拉普拉斯矩阵

形式:

性质:

1)实对称矩阵,也是半正定矩阵,所有的特征值都是大于等于0的实数,且最小的特征值为0.。

2)对于任意向量函数f,有

三、谱聚类算法

思想:

方法:

步骤:

step1:计算标准化后的拉普拉斯矩阵

step2:SVD对拉普拉斯矩阵分解,得到特征向量

step3:使用聚类算法对得到的【k个小的特征向量】进行聚类。

四、基于图结构、半监督的现有方法:

半监督:部分节点有label,大部分节点没有label

(1)基于平滑正则的标准方法(模型的表达能力受限)

原理:相邻节点具有相似的label

第一项是fiitting error,代表在标记数据上的误差;第二项是平滑正则,节点的权重越大,说明节点越相关。

(2)基于embedding的方法(embedding和分类器是分开学习,前后步骤不一定都是最优的)

首先,学习节点的embeddng表示;然后,训练一个常见的分类器

举例:DeepWalk、node2vec

上述方法缺点:无法end-to-end

五、图卷积网络GCN

图卷积的思想:利用边的信息对节点进行聚合,生成新的节点。

开创性的paper:Semi-Supervised Classification with Graph Convolutional Networks

对于L层的神经网络,学习过程为(考虑邻居节点的feature,但没有考虑自身节点的feature):

,其中

trick1:每个节点i,加上自环,即A=A + I

trick2:对邻接矩阵归一化:

传播rule为:

理论依据1:经典的Weisfeiler-Lehman algorithm,propagation rule解释为一种特殊的hash function

理论依据2:根据Spectral Graph Theory推导

tensorflow实现:

对称归一化 等价于 矩阵式聚合

加权平均 等价于 消息式聚合

参考文献:

https://www.zhihu.com/question/54504471

https://www.cnblogs.com/pinard/p/6221564.html

-- over --

发布了64 篇原创文章 · 获赞 24 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qm5132/article/details/89785117