《Author2Vec: Learning Author Representations by Combining Content and Link Information》

Ganesh J, Ganguly S, Gupta M, et al. 2016.

Abstract

在本文中，我们考虑从书目合著者网络中学习作者向量表示。在图像方面，深度学习现有的方法（如DeepWalk）由于侧重于对链接信息的建模，因此存在连接稀疏性问题。我们假设，以统一的方式捕获内容和链接信息将有助于缓解稀疏性问题。为此，我们提出了一个新的模型Author2vec，它能够学习低维的作者向量表示，使得写出类似内容和共享类似网络结构的作者在向量空间中更加接近。这样的向量表示在各种应用中都是有用的，例如链接预测，节点分类，推荐和可视化。对于链路预测和聚类任务，我们学习的作者向量效果分别比DeepWalk高出2.35%和0.83%。

1. Introduction

最近，将信息网络嵌入低维向量空间越来越引起人们的关注。其原因是，一旦获得了嵌入的向量形式，网络挖掘任务可以通过现成的机器学习算法来解决。为了用可扩展的方式构建良好的表示，研究人员开始使用深度学习作为分析图形的工具。例如，近期的一个模型DeepWalk使用均匀采样（截断随机游走）将图结构转换成包含顶点的线性序列的样本集合。他们将每一个样本作为一个句子处理，运行Skip-Gram模型（其最初设计用于从线性序列中学习单词表示），以从这些样本中学习顶点的表示。
DeepWalk的主要缺点是显示世界信息网络中固有的链路稀疏性问题。例如，两个编写与“机器学习”相关科学文章的作者如果没有连接，就不会被DeepWalk认为是相似的。在本文中，我们的目的是通过融合文本信息和链接信息以协同的方式来克服上述问题，以此来创建作者表示。我们在大型数据集上进行的实验表明，利用内容和链接信息减轻了链接稀疏性问题。

2. Author2Vec Model

假设合著者网络 $G=(V,E)$ ，其中每个顶点表示作者，每条边 $e=<u,v>\in E$ 表示作者 $u$ 和作者 $v$ 之间的关系。如果两个作者至少合著过一篇文章，则他们之间有边连接。我们使用 $P_u={p_{u1},...,p_{uN_p}}$ 来表示每个作者 $u$ 发表的文章集合，其中包括 $N_p$ 篇文章。对于每片文章，我们都有其摘要和出版年份。因此Author2Vec模型的目标是学习作者表示向量 $\mathbf{v}_u\in\mathbb{R}^b(\forall u\in V)$ ，其中 $d$ 是向量大小。模型通过无监督的方法学习到向量表示，分为两种类型：Content-Info和Link-Info模型。顾名思义，前者学习的是文本概念，后者则通过融合关系概念进一步丰富维度。

Context-Info Model: 该模型目标是单纯通过文本概念（论文摘要）捕捉作者向量表示。模型将作者 $u$ （由向量 $\mathbf{v}_u$ 表示）和论文 $p$ （由向量 $\mathbf{v}_p$ 表示）作为模型的输入，来预测 $u$ 是否写了论文 $p$ 。我们的训练元组是一个包括了正样本对（ $p$ 是 $u$ 的一个出版物）和负样本对（ $p$ 不是 $u$ 的一个出版物）的集合。其目的是使得作者的表示更接近其作品，而远离无关作品。即，我们预测作者-论文关系 $r_C(u,p)$ ，令 $l\in [1,2]$ ，其中1和2分别表示负样本和正样本值。我们使用神经网络预测输入对 $(\mathbf{v}_u,\mathbf{v}_p)$ :

h (\times) C = v u ⨀ v p (1)

$h_C^{(\times)}=\mathbf{v}_u\bigodot \mathbf{v}_p\tag{1}$

h (+) C = | v u - v p | (2)

$h_C^{(+)}=|\mathbf{v}_u- \mathbf{v}_p|\tag{2}$

h C = t a n h (W (\times) C h \times C + W (+) C h + C + b (h) C) (3)

$h_C=tanh(W_C^{(\times)}h_C^{\times}+W_C^{(+)}h_C^{+}+b_C^{(h)})\tag{3}$
其中，

W(×)C∈Rnh×d $W_C^{(\times)}\in \mathbb{R}^{n_h\times d}$ ，

W(+)C∈Rnh×d $W_C^{(+)}\in \mathbb{R}^{n_h\times d}$ ，

b(h)C $b_C^{(h)}$ 是模型的参数。

nh $n_h$ 定义了隐层大小。距离度量的使用是经验性的，Tai et al.的工作采用了类似的策略来捕捉句子对的语义相关性。Content-Info模型的目标函数可以写成如下形式：

L C = P [r C (u, p) = l] = s o f t m a x (U C \cdot h C + b (p) C) (4)

$\mathcal{L}_C=\mathbb{P}[r_C(u,p)=l]=softmax(U_C·h_C+b_C^{(p)})\tag{4}$
其中

UC∈R2×nh $U_C\in \mathbb{R}^{2\times n_h}$ ，

b(p)C $b_C^{(p)}$ 是模型的新的参数。我们通过最大化公式4的似然函数来学习未知参数

W(×)C $W_C^{(\times)}$ ，

W(+)C $W_C^{(+)}$ ，

b(h)C $b_C^{(h)}$ ，

UC $U_C$ ，

b(p)C $b_C^{(p)}$ ，

vu∈Rd $\mathbf{v}_u\in \mathbb{R}^d$ （作者向量）和

vp∈Rd $\mathbf{v}_p\in \mathbb{R}^d$ （论文向量）。论文向量（

vp $\mathbf{v}_p$ ）通过将摘要输入Paragraph2Vec上运行，进行预先初始化。

Link-Info Model: Link-Info模型的目标是通过链接信息丰富先前模型获得作者向量表示。该模型将作者向量（ $\mathbb{v}_u$ 和 $\mathbb{v}_v$ ）作为输入。和Content-Info模型相相似，训练元组包括正样本（ $u$ 和 $v$ 有合著关系）和负样本（ $u$ 和 $v$ 没有合著关系）。这种设置有效推动了拥有相似网络结构的作者在向量空间中更接近。我们使用不同的神经网络预测作者之间关系 $r_L(u,v)$ ：

h (\times) L = v u ⨀ v v (5)

$h_L^{(\times)}=\mathbf{v}_u\bigodot \mathbf{v}_v\tag{5}$

h (+) L = | v u - v v | (6)

$h_L^{(+)}=|\mathbf{v}_u- \mathbf{v}_v|\tag{6}$

h L = t a n h (W (\times) L h \times L + W (+) L h + L + b (h) L) (7)

$h_L=tanh(W_L^{(\times)}h_L^{\times}+W_L^{(+)}h_L^{+}+b_L^{(h)})\tag{7}$
其中，

W(×)L∈Rnh×d $W_L^{(\times)}\in \mathbb{R}^{n_h\times d}$ ，

W(+)L∈Rnh×d $W_L^{(+)}\in \mathbb{R}^{n_h\times d}$ ，

b(h)L $b_L^{(h)}$ 是模型的参数。Link-Info模型的目标函数如下：

L L = P [r L (u, v) = l] = s o f t m a x (U L \cdot h L + b (p) L) (8)

$\mathcal{L}_L=\mathbb{P}[r_L(u,v)=l]=softmax(U_L·h_L+b_L^{(p)})\tag{8}$
其中

UL∈R2×nh $U_L\in \mathbb{R}^{2\times n_h}$ ，

b(p)L $b_L^{(p)}$ 是模型的新的参数。我们通过最大化公式8的似然函数来学习未知参数

W(×)L $W_L^{(\times)}$ ，

W(+)L $W_L^{(+)}$ ，

b(h)L $b_L^{(h)}$ ，

UL $U_L$ ，

b(p)L $b_L^{(p)}$ ，

vu∈Rd $\mathbf{v}_u\in \mathbb{R}^d$ （作者向量）。

Training Details: 我们可以通过共享作者向量的权重来平均地连接两个模型。因此，Author2Vec的总体目标函数可以写成如下：

L = L C + L L (9)

$\mathcal{L}=\mathcal{L}_C+\mathcal{L}_L\tag{9}$
我们使用随机梯度下降，mini-batch设置为256，学习率设置为0.1，来学习模型的参数。

3. Experiments

我们通过链路预测和聚类这两个任务来验证。在所有实验中，我们根据经验将 $d$ 和 $n_h$ 分别设置为100和500。我们使用Chakraborty提出的引用网络数据集Citation Network Dataset (CND)，其中包含711810篇计算机科学论文（连同摘要），共有500361位作者撰写。每篇论文都含有一个计算机领域标签（共24种标签）。我们使用[2]中的DeepWalk的最佳实验设置。

Link Prediction: 对于链路预测，我们使用CND中从1990-2009年一共20年的数据，最后一年用于测试，其余年份用于训练。正样本是在训练集中有合著关系的作者对。对于每一个正样本对，我们随机选择一个负样本对。测试集包含，在测试年份里有合著关系，但是在训练年份没有合著过的作者对。最终的数据集包含2485764个训练对和15342个测试对。我们使用逻辑回归来解决这个二分类问题。

Clustering: CND包含人工注释的每篇论文的研究领域。为了简单起见，我们通过选择作者发布论文最多的领域，来将每个作者和领域联系起来。我们采用K-Means聚类算法(K=24，表示24个计算机科学领域)，将嵌入向量作为特征，并使用归一化互信息(NMI)度量。

Analysis: 由表1可以观察到：
（1）仅使用内容信息而没有链接关系，模型表现不佳。
（2）仅使用链接信息学习的，模型表现也很差。这是因为没有全局内容信息，作者向量往往对噪声链接敏感。
（3）DeepWalk比以前讨论的模型更胜一筹，主要是基于随机游走的方法由于负采样方法。
（4）但是，由于内容信息和链接信息的融合，Author2Vec优于DeepWalk。链路预测性能提高了2.35%，聚类任务性能提高了0.83%，这表明Author2Vec获得的作者向量的优越性。

Table1

4. Conclusions

给定参考书目网络，Author2Vec融合了内容和链接信息来学习高质量的作者表示。我们计划扩展加权图模型，其中边的权重表示共同撰写论文的数量，同时还可以加入全球网络信息以增强嵌入。

【论文阅读】Author2Vec: Learning Author Representations by Combining Content and Link Information