论文来源:KDD 2017
主要贡献:对带符号的网络学习隐表达(提出了一个无监督的特征选择框架SignedFS,同时用正连接和负连接来获取网络的潜在特征表达,来进行特征提取)
Abstract:
现阶段大量的研究都针对 positive interaction linked的网络,但是现实中的网络存在很多negative link,同时作者指出这些negative link也具有很重要的信息(eg.敌人的敌人是朋友),因此作者提出一种model可以学习带符号的网络中的两类link(positive & negative)的信息,并embedding成为latent representation。
理论依据:
本文的理论依据是,带符号的网络(有positive link 和 negative link的网络)遵守the principle of homophily and balance theory。
(1) the principle of homophily是指具有positive link的users,相对于随机选择的users,更有相似性。(也就是网络中节点的一阶近似,即直接positive相连的nodes是相似的)
(2) balance theory(类似于网络中节点的二阶近似,e.g.朋友的朋友是朋友,敌人的敌人是朋友)
Model的流程:
把有符号的社交网络分成两个子网络,分别从两个子网络获取正连接和负连接矩阵;
然后分三阶段进行,1.计算用户的潜在特征表达,2.特征选择,3.归一化处理。
把有符号的社交网络分成两个子网络,分别从两个子网络学习隐表达 (phase 1 in Figure 3)
这个过程对应的公式,如下:
然后,进行特征选择(phase 2 in Figure 3),公式如下:(这里第二项是, L1范数,用于稀疏特征)
之后,图正则(phase 3 in Figure 3),公式如下:
(补充说明:带符号网络中的一阶近似用P1矩阵来表示,二阶近似用P2矩阵表示,并定义P = P1 +θP2,所以下面公式6中的P是结合了一阶近似和二阶近似,用一阶近似矩阵和二阶近似矩阵来构造用户的近似矩阵;另外,公式6定义的是带符号网络的拉普拉斯矩阵,作为一个约束,用于最终的目标函数)
最后,本文的目标函数,如下:
本文也介绍了一些优化方法,但是不是论文的主体,在这里不介绍啦。
实验:
从实验结果可知,第一,只用正连接的效果比只用负连接的好,说明正连接信息比负连接更好;第二,用了两个连接的效果优于负连接的,说明负连接信息在一定程度上是有用的;第三,用了正连接和近似矩阵的效果优于只用正连接,说明用户的近似矩阵有积极作用。综上可以认为负连接和用户的近似性提高算法性能。(来自参考资料)
最后,该论文没有公开代码。
参考资料:
Unsupervised Feature Selection in Signed Social Networks 阅读笔记 - 知乎
https://zhuanlan.zhihu.com/p/30897905