Identification of influential users in social network using gray wolf optimization algorithm
基于灰狼优化算法的社交网络影响力用户识别
Expert Systems With Applications ,2020
Ahmad Zareie , Amir Sheikhahmadi , Mahdi Jalili
Qusetions
要解决什么问题
许多商业公司的生存取决于其产品的展示和销售。在线社交网络是传播产品广告的合适选择。病毒式营销可以从在线社交网络的特性中获益,在网络中,选择一组用户(称为种子集)开始在网络上传播消息。但是由于公司的广告预算的限制,只有有限数量的种子成员。
病毒营销(Viral Marketing,又称病毒式营销、病毒性营销 、基因营销或核爆式营销),是利用公众的积极性和人际网络,让营销信息像病毒一样传播和扩散,营销信息被快速复制传向数以万计、数以百万计的观众,它能够像病毒一样深入人脑,快速复制,迅速传播,将信息短时间内传向更多的受众。病毒营销是一种常见的网络营销方法,常用于进行网站推广、品牌推广等。
这里出现了一个问题:如何有效地识别最有影响力的用户并将其放入种子集。此问题称为影响最大化(IM)问题。定义为:识别在传输过程中起核心作用的一组用户。
Challenges
存在的挑战
- 如何有效地识别一组有影响力的用户(本文称为种子集)。
- 如何平衡时间复杂度和结果精度。
Related Works
相关工作的优缺点
现有的IM问题的研究可分为两大类。
第一类识别用户的影响力并对其进行排名。在这些研究中,大多根据网络结构和用户在网络中的位置,采用中心性测度(如度数、介数等)来衡量用户的影响力。采用中心性测度来衡量用户的影响力往往不会导致问题的接近最优解决方案(在另一篇论文中证明)。
第二类IM方法考虑如何进一步提高性能,不仅考虑节点的影响力,还考虑节点在网络上的距离。为了使选定的k个节点获得最大的集体影响力,它们应该是有影响力的节点,同时位于网络的不同部分,即它们之间的距离最大化。本文将其表述为优化问题。现有的基于优化的方法主要有三种:
- 贪心算法:贪心算法利用扩散模型模拟传播过程并测量种子集的影响力,对包含k个最有影响力用户的种子集S进行k步的迭代识别,并在每次迭代中使用扩散模型来估计该集合的影响力。S最初为空,确定最有影响力的用户并将其作为第一个成员添加到S中。之后,对于每一个S外的用户v,确定S + {v}的影响力,将与S的并集影响力最大的用户加入到S中作为新成员。通过迭代这个过程,将k个节点添加到S中。该方法选取的集精度较高,但由于时间复杂度较高,在大型网络中应用该方法比较费时。
扩散模型模拟了真实世界的扩散过程。扩散模型一般分为阈值模型,级联模型,流行病模型。独立级联(IC)模型是文献中广泛使用的最流行的模型之一。在IC模型中,每个用户可以处于激活或非激活模式。为了检验种子集S的影响力,放在S中的节点最初被设置为活动用户,所有其他用户都被视为不活动用户。在每个时间步骤t中,每个在步骤t-1中被激活的用户都有一次机会激活其每个非激活邻居,激活概率为p(根据图的稀疏性设定,根据网络中节点的度和二阶度的平均值计算)。此过程将继续进行,直到没有新用户在时间步骤中激活为止。最后,将该过程中被激活的用户数作为S的影响扩散量。为了得到统计上显著的结果,重复多次,平均激活用户数被认为是S的影响力。
- 启发式算法:使用递归方法为每个用户分配一个分数,并选择得分最高的用户作为种子。多数算法最初将每个节点的度作为其影响力的指标,并在k步中迭代种子的选择。在每一步中,具有最高影响力的节点作为新成员添加到种子集。如果节点v作为新成员加入到集合中,它的邻居的影响力就会降低。这种策略导致了网络中种子的重叠减少而分散更多。尽管启发式方法的时间复杂度较低,但在选择影响节点的近最优集合时精度较低,这主要是由于陷入局部最优解(为什么局部最优?)。
局部最优,是指对于一个问题的解在一定范围或区域内最优,或者说解决问题或达成目标的手段在一定范围或限制内最优。
- 元启发式算法:该方法通过定义适应度函数,将IM问题建模为优化问题,并采用进化优化算法等方法求解。现有的元启发式方法都忽略了种子成员之间的重叠,所选择的种子可能会覆盖的节点数量有限且激活概率较高。因此,本文首先定义了适应度函数,然后利用灰狼优化算法提出了适应度函数最大化的方法。
Solutions
作者给出的解决方案
要找到一个接近最优的有影响力的用户集合,首先需要以有效的方式衡量用户的影响力,然后找到最有影响力的用户。本文首先使用一个基于熵的度量来衡量用户的影响力。然后我们将该问题表述为优化问题,并使用灰狼优化方法求解。
适应度函数:
IM问题的目标是确定一个具有k个成员的集合S来启动传播过程,从而使传播最大化,即激活用户的数量最大化。首先需要用算法选择节点作为种子集的成员以满足(i)每个节点具有高的影响力,(ii)所选集合尽可能覆盖网络的广泛部分。这保证了最大限度的传播。节点 v j v_{j} vj被激活的概率:
pij表示从vi传播到vj的概率。第一部分计算节点vj收到邻居消息的概率,邻居是S的成员;如果节点vj在s中没有邻居,则认为它为0。第二部分计算节点v j从它的二阶邻居(也是s的成员)那里收到消息的概率。这两部分根据概率规则相加。
高度节点被激活,继续激活其他节点的概率更高。因此得出节点的影响力计算公式:
在本文提出的基于灰狼的影响最大化(GWIM)算法中,适应度函数可表示为:
在适应度函数中应用求和算子可能效率不高,因为它不能保证种子之间的最小重叠。向有价值的节点传播消息失败会导致所选种子的影响力急剧下降。本文考虑用影响力的熵作为S的适应度值以解决这个问题,即:
熵的值随着S’增加。
GWIM算法:
灰狼优化(GWO)算法是一种基于种群的进化算法,启发了灰狼的狩猎行为。这些狼遵循严格的社会支配等级,在社会中被分为四类:α (α)、β (β)、δ (δ)和ω (ω)狼。Alpha、Beta和Delta狼在狩猎过程中负责管理攻击,Omega狼对群体没有具体的表现,它们大多扮演替罪羊的角色。根据这些动物的生活方式和狩猎过程,GWO算法建模如下:
首先,随机生成一组解。每一种解都被分配给一只狼,并标明它的位置。适应度最好的狼被认为是α狼,适应度第二和第三好的狼分别被认为是β狼和δ狼。其他的狼被认为是ω狼。该算法根据α、β和δ狼的位置搜索问题空间,以找到猎物的位置(最优解)。换句话说,这三只狼估计猎物的位置,欧米茄狼根据这些狼的位置更新自己的位置,以找到更接近猎物的位置。该算法试图在迭代过程中找到最优解。在每一次迭代中,ω狼试图根据其他占主导地位的狼的位置来改善自己的位置。在迭代过程中,狼群位置之间的矛盾减少,算法收敛。在算法结束时,最优解即α狼作为最优解返回。
与其他进化优化算法相比,该算法具有更少的可调参数,能够以更小的计算复杂度和更快的收敛时间搜索问题空间。
在许多真实的社交网络中,有很大一部分节点只有一个邻居,这种的节点被选为种子的几率非常低(在另一篇论文中证明)。本文为了降低GWIM算法的时间复杂度,只考虑度数大于1的节点作为可能的种子。每个狼(解)具有两个属性:位置和对应的种子集。
初始狼群:
为每个度大于一的节点随机分配一个值X,这个值的大小受益于该节点度的大小。然后选出X最大的k个节点作为初始狼群。
更新狼的位置:
在每一次迭代中,欧米茄狼试图根据其他占主导地位的狼的位置来改善自己的位置:
其中 Y 1 Y_{1} Y1通过α 狼和此ω狼的位置计算( Y 1 Y_{1} Y1、 Y 1 Y_{1} Y1同理):
其中A、C为系数向量,计算公式如下:
r1、r2是0~1范围内的随机值,a为控制参数,计算公式如下:
Experiments
如何证明方案的创新性
在实验中,使用了三个真实的网络(HAM,PGP,AST)。
为了评估所提方法的性能,将结果与一些最新的影响最大化方法进行比较,包括:
中心性测度算法:
• Degree centrality
• k-shell
• Page Rank
• Betweenness centrality (BC)
贪婪算法:
• CELF ++
启发式算法:
• double discount (DD)
• heuristic clustering (HC)
元启发式算法:
• Degree Descending Search Strategy (DDSE)
• Simulated annealing EDV (SADV)
实验重复了20次,结果显示这些运行的平均值。
参数设置:
考察了GWO参数(狼群大小N和最大迭代次数Max _t)对适应度函数最终值的影响:当Max _t超过100,适应度函数的值并没有显著增加;
狼群规模大于50时,适应度函数的值并没有显著增加。因此,在接下来的实验中,将Max _t的值设置为100,N设置为50。
收敛速度:
需要计算每只狼i两次迭代之间的位置之间的欧氏距离。所有狼的平均移动距离;狼的平均移动距离减少,算法收敛。算法在最终迭代过程中呈现收敛趋势可避免陷入局部最优解。
种子的影响力:
为了提高数值结果的置信度,本节实验中IC模型重复50次。
GWIM和celf++方法在搜索空间上的探索优于其他方法,并且在相同种子大小的情况下具有最高的影响力。GWIM提供与celf++相近的结果,特别是,对于更大的种子集,GWIM比celf++更好地探索搜索空间,并优于celf++。随着种子集大小的增加,考虑种子间距离的作用更大,因此GWIM方法对种子集的选择具有更高的影响。DDSE是另一种采用优化过程的方法,是仅次于GWIM和celf++的第三佳方法。GWIM算法在较高的激活概率上优于其他算法。
统计分析:
我们进行Friedman检验分析,并使用Bonferroni方法对多重比较进行校正。置信度得分设为α = 0.05,即当p值小于0.05时,差异静态显著。k较小时celf++的效果最好,其他情况GWIM效果最好,DDSE和celf++的性能与GWIM接近,而celf++优于DDSE。
算法的平均执行时间:
GWIM比基于中心的方法更复杂,但它比其他元启发式方法的计算效率更高,同时在获得的种子集的影响性方面也有更好的性能。celf++具有最差的时间复杂度。
创新点:
- 使用一个基于熵的度量来衡量用户的影响力。
- 使用灰狼优化算法求解该问题。
- 所提方法优于最先进的IM算法,计算时间更短且效果更优。
Inspiration
通过阅读该论文的工作,有哪些启示
- 本文考虑用灰狼优化算法求解IM问题。在求解问题是要调研现有的算法并总结优缺点,才能进一步考虑算法需要满足什么条件才能更好地求解问题。
- 本文引入了熵的概念来解决种子密集导致结果不准确的问题。只有多了解一些别人的工作,才能在求解问题是更有思路。
- 本文将度为一的节点去掉以降低时间开销。考虑到这一点可以提高解决问题的效率。