【表示学习05】node2vec解读

1.参考文献

精读论文node2vec
node2vec论文阅读

2.思路概述

文章首先指出,现存的特征学习方法还不能足够的捕捉出显示网络中被观测到的联通模式的的多样性。作者同时认为在搜索相邻节点时增加灵活性时提升特征学习算法的关键。

主要贡献:定义了节点网络的表述,并且提出了一种带偏置的随机游走策略,这种策略可以有效地检索分散的相邻节点。

node2vec的指导性思想在于:

1.属于同一社区的节点在低维空间距离相近;

2.结构上相似的节点具有相似的嵌入表示

就图表示学习而言,此前就有开创性的DeepWalk方法,这种方法将word2vec这种针对自然语言处理的方法加以改进,适用于图表示学习。相较于DeepWalk,node2vec关注前者在语料库生成时的随机游走过程存在的缺陷。

我们知道word2vec中,模型的训练需要语料库的支撑。而相较于文本的天然顺序特点,图结构不具有这一顺序性质,因此DeepWalk采用随机游走的方法,通过基于搜索方法,产生一系列的节点访问序列,将其作为图的语料库进行模型训练。

虽然说从功能上DeepWalk实现了图的表示,但是这种语料库的生成形式比较欠考虑,缺乏一定的灵活度。node2vec通过BFS和DFS组合的形式,用参数加以调节,解决了这一问题。本质上来说BFS和DFS致力于语料库的构建,目的是相较于DeepWalk,使得采集的节点序列能够更准确地反映出网络的结构特征。

node2vec结合BFS和DFS的方法来对图中的节点进行采样,如图所示。BFS 采样得到的是Local microscopic view, 而DFS得到的是Global macrooscopoc view。

在这里插入图片描述

这两种策略反映出不同的两种相似性:相似性假设和结构等价假设 后者相较于前者,不强调连接性,也就是说相隔很远也可以有相同的结构属性;

这种对于相似性的分析是很有用处的,就是说node2vec着眼的不再仅仅是网络的表示,而是从节点的宏观结构上进行相似性分析,这一点是区别于DeepWalk的重要所在。

3.创新点

本文给出的随机游走的公式实际很简单。就是一个概率的东西。类似于给了一个方向盘,给了一个刹车,随便走,走过的路我拿来做经验,来充当训练的材料,但是这个材料的好坏确实能够影响最终任务结果的好坏。
在这里插入图片描述
在这里插入图片描述

作者评价自己的随机游走的这个特点:
我们的方法不像是广度优先和深度优先这样的方法过于强调要样本化同构性和同质性,这样的算法可以更加适应这些性质的描述,不是独有的和竞争性的关系,而是类似真实世界展示的两种结构的混合。

关于文章作者所说的sample这个词的含义:
实际对于这一系列的方法没有必要故弄玄虚,全都是对于语料库建立方法的一个改进,无非是第一篇开创性的deepwalk的迁移工作(从自然语言到NE)具有开创性的,也确实取得了效果,由于LINE方法效果并不能确切的说提升很大,这样就导致,所有的方法没有了什么进步。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/fantacy10000/article/details/86651497