ICLR 2023|| Graph Transformer的表示能力与深度的关系

题目:《ARE MORE LAYERS BENEFICIAL TO GRAPH TRANSFORMERS?》

作者:

  • Haiteng Zhao 1

  • Shuming Ma 2

  • Dongdong Zhang 2

  • Zhi-Hong Deng 1

  • Furu Wei 2

Note: 1 Peking University 2 Microsoft Research

摘要

尽管在许多神经结构中“深度模型”表现出色,但现有的Graph Transformer 相对较浅。本文探讨更深层的模型是否对Graph Transformer 有益,并发现当前的Graph Transformer 在提高性能方面存在瓶颈。进一步的分析揭示,这是由于全局注意力的消失能力限制了Graph Transformer 集中关注关键子结构并获得表达性特征的能力,限制了深度Graph Transformer 的发展。因此,本文提出了一种名为DeepGraph的新型Graph Transformer 模型,该模型在编码表示中明确地使用子结构标记,并在相关节点上应用局部注意力,以获得基于子结构的注意力编码。提出的模型增强了全局注意力集中关注子结构的能力,促进了表示的表达能力,解决了随着Graph Transformer 加深而自注意力限制的问题。实验表明,该方法解除了Graph Transformer 深度限制,并在各种Graph 基准测试中取得了最先进的性能。

a0d07deb82eef296dee4c452f1245f05.png

主要方法

这篇论文中发现现有的Graph Transformer 的性能提高受到深度的限制,因为它们受到全局注意力的能力衰减的限制,无法集中关注关键的子结构和获得表达性特征。为了解决这个问题,作者提出了一种名为DeepGraph的Graph Transformer 模型,该模型使用子结构标记在编码表示中明确地表示子结构,并在相关节点上应用局部注意力,以获得基于子结构的注意力编码。

具体来说,DeepGraph的结构如下:首先,它使用传统的Graph Transformer 模型,通过将Graph 中的节点特征和边特征转换为向量,并在向量之间应用自注意力,生成Graph 的表示。然后,它引入了一个名为子结构的新特征向量,它表示Graph 的局部子结构。这个向量与其他节点向量一起被送到局部注意力机制中,该机制将注意力集中在与子结构相关的节点上。这样,DeepGraph可以关注更细粒度的子结构信息,并获得更具表达性的Graph 表示。

, 代表节点集合, 是该图上边的集合, 和 是节点特征和边特征。 可以是针对整个图或者单个节点的标签,取决于任务的定义。给定一个图 ,子结构 定义为 ,其中 ,,即 的节点集合是 的一个子集,边集合是节点集合之间的所有现有边,也称作诱导子图。

Transformer 的核心模块是自注意力机制。设 表示第 层中的隐藏表示,其中 是 token 的数量, 是每个 token 的嵌入维度。自注意力映射 Attn 具有参数 和 :

其中 。在实践中,完整的 Transformer 层还包括两层全连接网络 FFN,然后通过残差连接(residual connection)和层归一化(layer normalization)进行操作:

其中 是层归一化函数, 是带有标准化系数的对角线矩阵。

对于图 Transformer,结构信息可以编码到 token 表示或注意力中。本文使用 Ying 等人(2021)提出的基于距离和最短路径信息的相对位置编码方法,采用距离 DIS 和最短路径 SP 作为相对位置。此外,本文中还使用了 deepnorm(Wang 等人,2022)残差连接方法,在层归一化中调整残差连接以稳定 deep Transformer 的优化过程。

理论分析

全局注意力旨在关注重要的子结构并自动学习表达式子结构。然而,Graph Transformer在堆叠更多层时表现不佳。注意层需要足够的容量来表示各种子结构,这是学习注意模式所必需的。文章定义了注意力容量,分析了其随着深度变化的情况,并提出了针对子结构的局部注意力作为潜在解决方案。

文章首先给出了注意力容量的定义:最大支持不同子结构注意力模式所学习表示之间的差异。文章定义子结构 的注意力向量 是一个只关注 中节点的向量。定义 , ,其中 表示有 个重要的子结构 和相应的注意力模式,那么 的每一列都是基向量。文章定义注意空间 为由这些注意力模式构成的空间。因此,注意力容量被定义为通过具有来自 上不同注意力矩阵的 self-attention 计算的输出之间的最大差异。

文章进一步从理论和实验两方面研究了Graph Transformer中的注意力容量随深度的变化。文章通过计算不同子结构的注意力容量发现,Graphormer 和 SAT 在达到一定深度后都会出现明显下降的情况,说明它们存在局限性;接着分析了自注意力模块和全连接层的影响,证明了自注意力模块会指数级地减少注意力容量的上界,而包含全连接层会使得上界更低。最后,作者发现采用局部子结构注意力可以在保证效率的同时避免这个问题.

795eeaeb34e6b348d127f449760648fe.png

本文研究了图注意力机制中的容量问题对图卷积神经网络(GCN)深度的影响,认为当GCN网络加深时,图注意力机制存在拓扑结构差异性导致的容量瓶颈。作者通过定义关注容量、分析其深度变化规律并提出局部注意力解决方案等,明确提出了优化图注意力机制以解决GCN深度限制的方法,并在论文中给出了实验验证,证明了这种新型模型在主流图数据集上的性能超过目前公认的最佳水平。

推荐阅读:

我的2022届互联网校招分享

我的2021总结

浅谈算法岗和开发岗的区别

互联网校招研发薪资汇总
2022届互联网求职现状,金9银10快变成铜9铁10!!

公众号:AI蜗牛车

保持谦逊、保持自律、保持进步

发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记

发送【AI四大名著】获取四本经典AI电子书

猜你喜欢

转载自blog.csdn.net/qq_33431368/article/details/129980122