【知识图谱系列】GCNII模型探索DeepGNN的Over-Smoothing问题

> 作者:CHEONG
> 公众号:AI机器学习与知识图谱
> 研究方向:自然语言处理与知识图谱
复制代码

GCNII (ICML 2020) 分享,GCNII全程:Graph Convolutional Networks via Initial residual and Identity Mapping

一、Motivation

计算机视觉中,模型CNN随着其层次加深可以学习到更深层次的特征信息,叠加64层或128层是十分正常的现象,且能较浅层取得更优的效果。

图卷积神经网络GCNs是一种针对图结构数据的深度学习方法,但目前大多数的GCN模型都是浅层的,如GCN,GAT模型都是在2层时取得最优效果,随着加深模型效果就会大幅度下降,经研究GCN随着模型层次加深会出现Over-Smoothing问题,Over-Smoothing既相邻的节点随着网络变深就会越来越相似,最后学习到的nodeembedding便无法区分。

上图中,随着模型层次加深,在Cora数据上Test Accuracy逐渐向下降,Quantitative Metric for Smoothness给Over-smoothness提出一个定量的指标SVM_ ,如下公式所示:

[公式] 衡量了图中任意两个节点之间的欧氏距离之和, [公式] 越小表示图学习时Over-Smoothing越严重当,当 [公式] 时,图中所有节点完全相同,也可以从图中看出随着层次的加深, [公式] 的值越来越小。

二、Method

GCNII为了解决GCN在深层时出现的Over-Smoothing问题,提出了Initial ResidualIdentit Mapping两个简单技巧,成功解决了GCN深层时的Over-Smoothing问题。

1、Initial residual

残差一直是解决Over-Smoothing的最常用的技巧之一,传统GCN加residualconnection用公式表示为:

GCNII Initial Residual不是从前一层获取信息,而是从初始层进行残差连接,并且设置了获取的权重。这里初始层initial representation不是原始输入feature,而是由输入feature经过线性变换后得到,如下公式所示:

但Initial Residual不是GCNII首次提出,而是ICLR 2019模型APPNP中提出。

2、Identity Mapping

仅仅使用残差只能缓解Over-Smoothing问题,因此GCNII借鉴了ResNet的思想有了Identity Mapping,Initial Residual的想法是在当前层representation和初始层representation之间进行权重选择,而Identity Mapping是在参数W和单位矩阵I之间设置权重选择,如下公式所示:

从上面公式看出,前半部分是Initialresidual,后半部分是IdentityMapping,其中α和β是超参,GCNII论文中也给出了为什么IdentityMapping可以起到缓解DeepGNN出现Over-Smoothing问题,总结来说:IdentityMapping可以起到加快模型的收敛速度,减少有效信息的损失。

三、Conclusion

1、实验数据

实验中Cora, Citeseer, Pubmed三个引文数据,是同质图数据,常用于Transductive Learning类任务,三种数据都由以下八个文件组成,存储格式类似:

2、实验结果

实验结果在Cora, citeseer, pubmed三个数据上都进行DeepGNN测试,测试结果可以看出随着网络层级的加深,模型不仅没有像传统GNN出现Over-Smoothing而效果下降,反而模型效果随着深度增加而不断提升,解决了传统DeepGNN存在的Over-Smoothing问题。

猜你喜欢

转载自juejin.im/post/7040241617973805086
今日推荐