本文是对《Asymmetric Transitivity Preserving Graph Embedding》一文的浅显翻译与理解，原文章已上传至个人资源，如有侵权即刻删除。

文章目录

前言
Title
Main Body

1 定义
2 损失函数
3 优化高阶接近度
4 近似误差

前言

该文章认为，与无向图不同，有向图中的传递性是非对称的，提出 HOPE(High-Order Proximity Preserved Embedding)算法来学习无向图中的非对称传递性，该算法对非对称传递性的测量是可观测的。

HOPE 将嵌入分为两部分，即源嵌入和目标嵌入。通过近似高阶接近度，模拟多个接近度测量标准的通用公式，通过广义 SVD 保证了算法的可扩展性。并且对四种接近度的测量标准进行公式推导，最终都归为通用形式。避免了对接近度矩阵 S 的高复杂度 SVD 计算，将其视为中间变量不直接求解，而是使用最大奇异值 K 跳过 S 得到最终嵌入。

Title

《Asymmetric Transitivity Preserving Graph Embedding》（保持非对称传递性的图嵌入）
——KDD 2016: The 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
Author: Mingdong Ou

Main Body

针对有向图中的非对称传递性，将向量分为 source vector 和 target vector 两部分。节点 vi 与 vj 之间的路径越多且越短，vi 的源向量和 vj 的目标向量就越相似。从理论上讲，无向图和有向图都可以被表示为有向图。

1 定义

G=(V,E)，V 是顶点集，E 是边集，A 是邻接矩阵，S 是高阶接近度矩阵， U=[U^s,Ut] 是嵌入矩阵，分为源嵌入和目标嵌入。

2 损失函数

目标是通过近似高阶接近度来保持非对称传递性，损失函数为：
在这里插入图片描述
对 S，有多种高阶接近度的度量衡，其通用形式如下：

对四种度量衡分别推导：
（1）Katz Index：是两节点间所有路径的加权和，权重与路径长度呈指数关系，则有：

其中 β 是衰变参数，要比邻接矩阵的谱半径小。A^l 即加和的每项，每次多乘一个邻接矩阵 A。
在这里插入图片描述
（2）RPR(Rooted PageRank)：表示 vi 稳定状态下随机游走连接 vj 的概率，设在一步随机游走中向其他相邻节点延伸的概率为 α，返回上一出发点的概率为(1-α),则有：

其中，P 是满足 ∑(i=1,…,N)P_i*j=1 的概率转移矩阵，即矩阵各元素非负，且各行元素之和为1，各元素用概率表示，在一定条件下是互相转移的。
在这里插入图片描述
（3）CN(Common Neighbors)：S_ij 即同时连接 vi 和 vj 两节点的的节点数量，对有向图而言，S_ij 即同时作为 vi 边目标和 vj 边源的节点数量，则有：

（4）AA(Adamic-Adar)：是 CN 的变体，其为每个邻居分配一个权重，这意味着一个节点连接的节点越多，该节点对某一节点的接近度就越小，则有：
在这里插入图片描述
上述四个度量衡可以被分为两种类型：全局接近度的有 Katz index 和 rooted PageRank，都推导为递归形式；局部接近度的有 Common Neighbors 和 Adamic-Adar。Mg 与全局非对称传递性关系密切，其有形式为 I-α·B，其中 B 为转移矩阵，α 为参数，α 越大，越容易在图中观察到传递性；α 为0时，观察到的关系就只能在子图中传递，子图的范围受到 Ml 的限制。

3 优化高阶接近度

损失函数目的在于找到接近度矩阵 S 中最优的 K 阶接近度，对高阶接近度矩阵 S 执行 SVD 奇异值分解，使用其中最大的 K 值及其对应的向量来构建最优嵌入向量，则有：
在这里插入图片描述
{σ1,σ2,…,σN} 是降序排列的奇异值，可以得到最优嵌入向量如下：

然而，对 S 进行奇异值分解计算耗费过大，S 是计算的瓶颈，且其只是中间产物，因此提出新的算法避免对 S 的计算，直接得到嵌入向量。将原始 SVD 问题转化为广义 SVD 问题，以便使用通用公式进行接近度测量，则有：
在这里插入图片描述