最近工作涉及到图像识别,属于轮廓式的图像(非猫狗这些丰富色彩的的object,而是类似建筑图这种),恰好用到GCN。
图像识别是目前的一个研究热点,基于CNN模型在很多图像识别领域有比较好的效果,但在非二维方格或三维方格、轮廓式的图像领域也可以尝试其他方法,比如GCN(graph convolution network)。
这里汇总下GCN所涉及的相关知识点,做一个总结!
A:代表邻接矩阵,X:代表节点的特征矩阵,D:代表节点的度矩阵,S:代表相似矩阵,
矩阵的秩:矩阵行数目,
graph节点集合V_1(V_1属于V)的体积vol(A_1):节点集合A_1中全部节点度之和。
一、深度学习基本理论
(1)数学上卷积(为什么是卷?)和深度学习图像上卷积的区别:
卷积f*g,数学上需要需要g先反转,再和f对应位置相乘求和;而图像上卷积g起空间过滤器作用,对f局部过滤。
f和g的卷积表示为:(f*g)(n)
二维离散卷积的定义如下:
数学上连续卷积定义:
数学上离散卷积定义:
数学上卷积应用举例:
示例1:独立随机事件A和B,指定发生次数N的概率:(f*g)(4)=累加求和{f(i)g(N-i)}
示例2:对于图像上的噪声点,通过噪声点周边的信息对噪声进行替代,实现去燥。
(2)邻居节点对当前节点加权的途径:
1)加权平均法
考虑节点i的邻接节点(不考虑节点i本身)
考虑节点i的邻接节点和节点i本身
2)归一化的加权平均法(加权时候考虑度的影响)
缺点:只考虑了节点i本身的度大小
3)对称归一化的加权平均法(去除邻居节点j的度的影响)
定义
综合考虑节点i和邻居节点j的度大小的影响
(3)什么是拉普拉斯矩阵
(4)热力学传播理论
(laplacian变换和热力学传播的关系)
前提常识:
常识1:在一个拓扑(可能是二维直线、网络、也可能是三维立体)中,某一点i处的某种状态(比如温度或信息)随时间t变化的速率,正比于该点i的状态与附近节点j的状态的差值(其实就是节点i和邻居节点j的状态分布)。
常识2:离线空间中的一阶差分等价于连续空间中的一阶导数,二阶差分等价于连续空间中的二阶导数。
常识3:二维空间总的二阶导数推广到多维空间,就是多维偏导数。
状态Q随时间t的微分方程:
公式1:
(连续欧式空间)
,(称为拉普拉斯算子)代表Q对各个坐标求解二阶导数,再求和。
公式2:
==》 ==》
思想1:数学上的解析解 或 机器学习中的迭代求解(假定t是离散的)
思想2:邻居节点和本节点的状态的加和性质(类似于Aggregate)
(5)Fourier分解或变换
二、图谱理论
(1)节点之间的权重(相似度)
1)阀值法:节点i和j之间的欧式距离小于阀值,则说明相似,否则不相似;权重即为阀值。
2)K近邻法:
- 节点i的所有K个邻居节点之间的权重大于0,否则为0。
- 节点j是节点i的邻居节点,则i和j之间权重大于0,否则为0。
- 有且节点j是节点i的邻居节点,节点i也是节点j的邻居节点,则i和j之间的权重大于0,否则为0。
3)全连接法:即相邻2个节点之间的权重固定为1,否则为0。
权重定义主要采用核函数方法:多项式核函数、高斯核函数、RBF核函数()。
(2)拉普拉斯矩阵
形式:
性质:
1)实对称矩阵,也是半正定矩阵,所有的特征值都是大于等于0的实数,且最小的特征值为0.。
2)对于任意向量函数f,有
三、谱聚类算法
思想:
方法:
步骤:
step1:计算标准化后的拉普拉斯矩阵
step2:SVD对拉普拉斯矩阵分解,得到特征向量
step3:使用聚类算法对得到的【k个小的特征向量】进行聚类。
四、基于图结构、半监督的现有方法:
半监督:部分节点有label,大部分节点没有label
(1)基于平滑正则的标准方法(模型的表达能力受限)
原理:相邻节点具有相似的label
第一项是fiitting error,代表在标记数据上的误差;第二项是平滑正则,节点的权重越大,说明节点越相关。
(2)基于embedding的方法(embedding和分类器是分开学习,前后步骤不一定都是最优的)
首先,学习节点的embeddng表示;然后,训练一个常见的分类器
举例:DeepWalk、node2vec
上述方法缺点:无法end-to-end
五、图卷积网络GCN
图卷积的思想:利用边的信息对节点进行聚合,生成新的节点。
开创性的paper:Semi-Supervised Classification with Graph Convolutional Networks
对于L层的神经网络,学习过程为(考虑邻居节点的feature,但没有考虑自身节点的feature):
,其中
trick1:每个节点i,加上自环,即A=A + I
trick2:对邻接矩阵归一化:
传播rule为:
理论依据1:经典的Weisfeiler-Lehman algorithm,propagation rule解释为一种特殊的hash function
理论依据2:根据Spectral Graph Theory推导
tensorflow实现:
对称归一化 等价于 矩阵式聚合
加权平均 等价于 消息式聚合
参考文献:
https://www.zhihu.com/question/54504471
https://www.cnblogs.com/pinard/p/6221564.html
-- over --