图卷积目标

实现一个函数, $Z=f(X,A)$ , 其中 $X\in R^{N\times D_1}$ 为输入特征, $A\in R^{N\times N}$ 为稀疏邻接矩阵, $Z\in R^{N\times D_2}$ 为输出特征, $N$ 是图 (graph) 中的节点数.

Naive GCN

信号在空域的卷积等于其在频域相乘, 即 $f*g=F^{-1}(F(f)F(g))$ , 其中 $F$ 为傅里叶变换. 常见的图卷积的做法是将图的信息转换到频域, 然后作乘, 这个过程也称为谱卷积.

对于图像而言,时频傅里叶变换的基是拉普拉斯算子的特征函数;
对于图而言, 我们可以通过对图的拉普拉斯矩阵 $L$ 进行特征值分解来得到图上的傅里叶变换的数学形式.他们之间的关系可以参考这个链接.

拉普拉斯矩阵的定义如下

设 $D$ 为 $N\times N$ 的对角矩阵, $D_{ii}$ 为图上结点 $v_i$ 的度
$A$ 为邻接矩阵
拉普拉斯矩阵 $L=D-A$
对其进行正则化则有 $L=I-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$ , 其中 $I$ 为单位矩阵

$L$ 是一个实对称阵, 对其进行特征值分解得到 $L=U\Lambda U^T$ , 特征向量构成的矩阵 $U$ 即为图所对应的傅里叶基.
因此我们可以将图上的傅里叶变换形式化为:

傅里叶变换: $\hat{x}=U^Tx$
逆变换: $x=U\hat{x}$

图的谱卷积从而可以形式化为 $g*x=U(U^Tg\odot U^Tx),$ 其中 $\odot$ 为哈达玛积 (element-wise Hadamard product).

在最早的GCN (graph convolution network) 中, 令 $g_\theta$ 为定义在频域的filter, 即 $g*x=g_\theta(L)x=g_\theta(U\Lambda U^T)x=Ug_\theta(\Lambda)U^Tx.$
$g_\theta(\Lambda)=diag(\theta)$ 为一个non-paramatric filter, 即它的所有参数 $\theta\in R^N$ 是自由的.

上述计算涉及到三次 $N\times N$ 的矩阵乘法, 以及对 $L$ 的特征值分解, 计算开销为 $O(N^2+M)$ , 且考虑输入输出的channel数量,可学习的参数必须为 $N\times D_1 \times D_2$ 个

Fast Localized Spectral Filtering

上述的谱卷积计算开销很大, 不利于神经网络的训练, 于是有了利用切比雪夫多项式 (Chebyshev polynomials)进行近似的改进版.
切比雪夫多项式常用于多项式插值逼近, 可以参考这个链接对它进行进一步的了解, 其递归定义如下:

$T_0(x)=1$
$T_1(x)=x$
$T_k(x)=2xT_{k-1}(x)-T_{k-2}(x)$

于是可以近似表示 $g_\theta(\Lambda)=\sum_{k=1}^K\theta_kT_k(\tilde{\Lambda})$ , 其中 $\tilde{\Lambda}=\frac{2\Lambda}{\lambda_{max}}-I$ , (归一化到 $[-1,1]$ ).
由于 $UU^T=I$ , 因此 $UT_k(\tilde{\Lambda})U^T=T_k(\tilde{L})$ , 其中 $\tilde{L}=\frac{2L}{\lambda_{max}}-I$
滤波操作可以进一步写成: $g_\theta(L)x=\sum_{k=1}^K\theta_kT_k(\tilde{L})x$

于是可学习的参数变为了 $K$ 个, 类似传统卷积的kernel size, 常取 $K=3$ 或 $K=5$ , 计算复杂度由于递推关系和 $L$ 的稀疏性, 也降低为 $O(K|E|)$ , $E$ 为图的边数.

Layer-wise Linear model

进一步的, 如果令上述 $K=1,\lambda_{max}=2$ , 可以使得图卷积运算变成一个与 $L$ 线性相关的函数:
$g_\theta(L)=\theta_0+\theta_1(L-I)\\ =\theta_0-\theta_1D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$
约束 $\theta=\theta_0=-\theta_1$ 以进一步防止过拟合,得到: $g_\theta*x=\theta(I+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x$

为了防止梯度爆炸/弥散, 对A和D进行正则化:

$\tilde{A}=A+I$
$\tilde{D}_{ii}=\sum_{j}\tilde{A}_{ij}$
$g_\theta*x=\theta (\tilde{D}^{-\frac{1}{2}}\tilde A \tilde D^{-\frac{1}{2}})x$

考虑channel数量, 图卷积层可表示为: $Z=\tilde{D}^{-\frac{1}{2}}\tilde A \tilde D^{-\frac{1}{2}}X\Theta,$ $\Theta\in R^{D_1\times D_2}$ 为可学习参数

Reference

Semi-Supervised Classification with Graph Convolutional Networks
Graph Convolution Network
Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering

宇秀洛书

发布了5 篇原创文章 · 获赞 0 · 访问量 237

私信关注

GCN | 图卷积 | Graph Convolution 入门笔记

图卷积目标

Naive GCN

Fast Localized Spectral Filtering

Layer-wise Linear model

Reference

猜你喜欢