Higher-order clustering in networks摘要

##介绍
  网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
  首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例 (1) C = 6 ∣ K 3 ∣ ∣ W ∣ C=\frac{6|K_3|}{|W|}\tag{1} C=W6K3(1)
相应可以定义局部聚集系数 (2) C ( u ) = 2 ∣ K 3 ( u ) ∣ ∣ W ( u ) ∣ C(u)=\frac{2|K_3(u)|}{|W(u)|}\tag{2} C(u)=W(u)2K3(u)(2)
平均聚集系数 (3) C ‾ = 1 ∣ V ~ ∣ ∑ u ∈ V ~ C ( u ) \overline{C}=\frac{1}{|\widetilde{V}|}\sum_{u\in\widetilde{V}}C(u)\tag{3} C=V 1uV C(u)(3)
类似的,由 l l l节点团扩展到 l + 1 l+1 l+1节点,则 (4) C l = ( l 2 + l ) ∣ K l + 1 ∣ ∣ W l ∣ C_l=\frac{(l^2+l)|K_{l+1}|}{|W_l|}\tag{4} Cl=Wl(l2+l)Kl+1(4)
局部聚集系数 (5) C l ( u ) = l ∣ K l + 1 ( u ) ∣ ∣ W l ( u ) ∣ C_l(u)=\frac{l|K_l+1(u)|}{|W_l(u)|}\tag{5} Cl(u)=Wl(u)lKl+1(u)(5)
平均聚集系数 (6) C ‾ l = 1 ∣ V ~ l ∣ ∑ u ∈ V ~ l C l ( u ) \overline{C}_l=\frac{1}{|\widetilde{V}_l|}\sum_{u\in\widetilde{V}_l}C_l(u)\tag{6} Cl=V l1uV lCl(u)(6)
(7) ∣ W l ( u ) ∣ = ∣ K l ( u ) ∣ ( d u − l + 1 ) |W_l(u)|=|K_l(u)|(d_u-l+1)\tag{7} Wl(u)=Kl(u)(dul+1)(7)
其中 d u d_u duS 节点 u u u的度,替换公式 ( 5 ) (5) (5)则有
(8) C l ( u ) = l ∣ K l + 1 ( u ) ∣ ( d u − l + 1 ) ∣ K l ( u ) ∣ C_l(u)=\frac{l|K_{l+1}(u)|}{(d_u-l+1)|K_l(u)|}\tag{8} Cl(u)=(dul+1)Kl(u)lKl+1(u)(8)
通过枚举所有 l + 1 l+1 l+1 l l l节点的团,能计算局部 l   t h − o r d e r l\ th-order l thorder的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是 O ( l a l − 2 m ) O(la^{l-2}m) O(lal2m),其中 m m m是边数, a a a是一种边密度。 a a a可能与 m \sqrt{m} m 一样大,若 l l l为常数,则是多项式时间,在至少 l l l节点上确定是否有一个团是 N P C NPC NPC问题。对于全局聚集系数,则有 ∣ W l ∣ = ∑ u ∈ V ∣ W l ( u ) ∣ |W_l|=\sum_{u\in V}|W_l(u)| Wl=uVWl(u)
局部聚集系数可以解释成从所有以节点 u u u为中心的wedge中随机挑选的一个是闭合的概率 (10) C l ( u ) = P [ w ∈ K l + 1 ( u ) ] C_l(u)=\mathbb{P}[w\in K_{l+1}(u)]\tag{10} Cl(u)=P[wKl+1(u)](10)
定义1-hop邻居图 N 1 ( u ) N_1(u) N1(u),节点 u u u周围相邻的节点组成 N 1 ( u ) N_1(u) N1(u)的节点,原来的这些节点之间的连边组成 N 1 ( u ) N_1(u) N1(u)的边。于是公式 ( 8 ) (8) (8) (11) l ∣ K l [ N 1 ( U ) ] ∣ ( d u − l + 1 ) ∣ K l − 1 [ N 1 ( u ) ] ∣ \frac{l|K_l[N_1(U)]|}{(d_u-l+1)|K_{l-1}[N_1(u)]|}\tag{11} (dul+1)Kl1[N1(u)]lKl[N1(U)](11)
其中 K k [ N 1 ( u ) ] K_k[N_1(u)] Kk[N1(u)]记为 N 1 ( u ) N_1(u) N1(u)中有 k k k节点团的个数。如果从 N 1 ( u ) N_1(u) N1(u)随机选 l − 1 l-1 l1节点团,然后再从剩下的点选一个节点 v v v,这 l l l个点组成 l l l节点团的概率就是 (12) C l ( u ) = P [ K ∪ { v } ∈ K l [ N 1 ( u ) ] ] C_l(u)=\mathbb{P}[K\cup\{v\}\in K_l[N_1(u)]]\tag{12} Cl(u)=P[K{ v}Kl[N1(u)]](12)
C l − 1 ( u ) ⋅ C l ( u ) C_{l-1}(u)\cdot C_l(u) Cl1(u)Cl(u) l − 1 l-1 l1节点团和两个随机挑选节点组成 l + 1 l+1 l+1节点团的概率,则 (13) ∏ j = 2 l C j ( u ) = ∣ K l [ N 1 ( u ) ] ∣ ( l d u ) \prod_{j=2}^lC_j(u)=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{13} j=2lCj(u)=(ldu)Kl[N1(u)](13)
这里写图片描述
  对于任意固定 l > 3 l>3 l>3 (14) 0 ≤ C l ( u ) ≤ C 2 ( u ) 0\leq C_l(u)\leq\sqrt{C_2(u)}\tag{14} 0Cl(u)C2(u) (14)
1.存在有限图 G G G使下界成立,当 C 2 ( u ) ∈ [ 0 , l − 2 l − 1 ] C_2(u)\in[0,\frac{l-2}{l-1}] C2(u)[0,l1l2]
2.存在有限图 G G G使上界成立,当 C 2 ( u ) ∈ [ 0 , 1 ] C_2(u)\in[0,1] C2(u)[0,1]
   0 ≤ C l ( u ) 0\leq C_l(u) 0Cl(u)是显然的,当 N 1 ( u ) N_1(u) N1(u)如上图2所示时, C 2 ( u ) = l − 2 l − 1 C_2(u)=\frac{l-2}{l-1} C2(u)=l1l2,通过删去一些边可使范围在 [ 0 , l − 2 l − 1 ] [0,\frac{l-2}{l-1}] [0,l1l2]。定义 (15) δ l [ N 1 ( u ) ] = ∣ K l [ N 1 ( u ) ] ∣ ( l d u ) \delta_l[N_1(u)]=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{15} δl[N1(u)]=(ldu)Kl[N1(u)](15)记为 N 1 ( u ) N_1(u) N1(u) l − c l i q u e l-clique lclique密度,由文献中的定理则有 δ l [ N 1 ( u ) ] ≤ [ δ l − 1 [ N 1 ( u ) ] ] l / ( l − 1 ) \delta_l[N_1(u)]\leq[\delta_{l-1}[N_1(u)]]^{l/(l-1)} δl[N1(u)][δl1[N1(u)]]l/(l1)
δ [ N 1 ( u ) ] ≤ [ δ 2 [ N 1 ( u ) ] ] ( l − 1 ) / 2 \delta[N_1(u)]\leq[\delta_2[N_1(u)]]^{(l-1)/2} δ[N1(u)][δ2[N1(u)]](l1)/2
再由公式 ( 8 ) (8) (8)
C l ( u ) ≤ [ δ l − 1 [ N 1 ( u ) ] ] 1 l − 1 ≤ δ 2 [ N 1 ( u ) ] = C 2 ( u ) C_l(u)\leq[\delta_{l-1}[N_1(u)]]^{\frac{1}{l-1}}\leq\sqrt{\delta_2[N_1(u)]}=\sqrt{C_2(u)} Cl(u)[δl1[N1(u)]]l11δ2[N1(u)] =C2(u)
N 1 ( u ) N_1(u) N1(u) c c c个节点的 c l i q u e clique clique b b b个孤立节点组成,当 l = 2 l=2 l=2时有
C l ( u ) = ( 2 c ) ( 2 c + b ) = ( c − 1 ) c ( c + b − 1 ) ( c + b ) → ( c c + b ) 2 C_l(u)=\frac{(^c_2)}{(^{c+b}_2)}=\frac{(c-1)c}{(c+b-1)(c+b)}\rightarrow(\frac{c}{c+b})^2 Cl(u)=(2c+b)(2c)=(c+b1)(c+b)(c1)c(c+bc)2
3 ≤ l ≤ c 3\leq l\leq c 3lc时有
C l ( u ) = l ( l c ) ( c + b − l + 1 ) ( l − 1 c ) = c − l + 1 c + b − l + 1 → c c + b C_l(u)=\frac{l(^c_l)}{(c+b-l+1)(^c_{l-1})}=\frac{c-l+1}{c+b-l+1}\rightarrow\frac{c}{c+b} Cl(u)=(c+bl+1)(l1c)l(lc)=c+bl+1cl+1c+bc
d u → ∞ d_u\rightarrow\infty du时有 C 2 ( u ) ∈ [ 0 , 1 ] C_2(u)\in[0,1] C2(u)[0,1],且 C l ( u ) → C 2 ( u ) C_l(u)\rightarrow\sqrt{C_2(u)} Cl(u)C2(u)
  现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率 p p p,为了使图中至少有一个 l − w e d g e l-wedge lwedge,这里假设 l l l比较小,设 p p p n n n都比较大,则对于任意 ϵ > 0 \epsilon>0 ϵ>0,clique的节点数量小于 ( 2 + ϵ ) l o g   n / l o g ( 1 / p ) (2+\epsilon)log\ n/log(1/p) (2+ϵ)log n/log(1/p)。在 G n , p G_{n,p} Gn,p模型中,当且仅当 l − c l i q u e l-clique lclique中有 l − 1 l-1 l1条边出现并有另外一节点与之相邻时,则形成 l − w e d g e l-wedge lwedge,这 l − 1 l-1 l1条边的存在概率与 p l − 1 p^{l-1} pl1有关。
  令 G G G为随机图模型 G n , p G_{n,p} Gn,p,对于常数 l l l
( 1 )   E G [ C l ] = p l − 1 (1)\ \mathbb{E}_G[C_l]=p^{l-1} (1) EG[Cl]=pl1
( 2 )   E G [ C l ( u ) ∣ W l ( u ) > 0 ] = p l − 1 (2)\ \mathbb{E}_G[C_l(u)|W_l(u)>0]=p^{l-1} (2) EG[Cl(u)Wl(u)>0]=pl1
( 3 )   E G [ C ‾ l ] = p l − 1 (3)\ \mathbb{E}_G[\overline{C}_l]=p^{l-1} (3) EG[Cl]=pl1
   E [ C l ] = E G [ E W l [ C l ∣ W l ] ]           = E [ E W l [ 1 ∣ W l ∣ ∑ w ∈ W l P [ w   i s   c l o s e d ] ] ]           = E G [ E W l [ 1 ∣ W l ∣ ∑ w ∈ W l p l − 1 ] ]           = E G [ p l − 1 ]           = p l − 1 \mathbb{E}[C_l]=\mathbb{E}_G[\mathbb{E}_{W_l}[C_l|W_l]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}\mathbb{P}[w\ is\ closed]]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}p^{l-1}]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[p^{l-1}]\\ \ \ \ \ \ \ \ \ \ =p^{l-1} E[Cl]=EG[EWl[ClWl]]         =E[EWl[Wl1wWlP[w is closed]]]         =EG[EWl[Wl1wWlpl1]]         =EG[pl1]         =pl1
对于比较小的 l l l,第二个等号成立,第三个等号成立是因为当且仅当 l − 1 l-1 l1条边存在时,l-wedge是闭合的。第二部分的证明本质上是相同的,不同的是条件期望是基于所有可能的 W l ( u ) > 0 W_l(u)>0 Wl(u)>0 V ~ \tilde{V} V~是至少在一个l-wedge中的节点集合,基于 V ~ \tilde{V} V~的条件期望,加上第二部分结论,能有第三部分结果。以上的全局、局部和平均聚集系数随 l l l增大而指数减小。
G G G G n , p G_{n,p} Gn,p模型的随机图,对于常数 l l l
E G [ C l ( u ) ∣ C 2 ( u ) , W l ( u ) > 0 ] = [ C 2 ( u ) − [ 1 − C 2 ( u ) ] O ( 1 / d u 2 ) ] l − 1 ≈ [ C 2 ( u ) ] l − 1 \mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=[C_2(u)-[1-C_2(u)]O(1/d_u^2)]^{l-1}\approx[C_2(u)]^{l-1} EG[Cl(u)C2(u),Wl(u)>0]=[C2(u)[1C2(u)]O(1/du2)]l1[C2(u)]l1
基于 W l ( u ) > 0 W_l(u)>0 Wl(u)>0的条件期望
E G [ C l ( u ) ∣ C 2 ( u ) , W l ( u ) > 0 ] = E G [ E W l ( u ) > 0 [ C l ( u ) ∣ C 2 ( u ) , W l ( u ) ] ] = E G [ E W l ( u ) > 0 [ 1 ∣ W l ( u ) ∣ ∑ w ∈ W l ( u ) P [ w   c l o s e d   ∣   C 2 ( u ) ] ] ] \mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[C_l(u)|C_2(u),W_l(u)]]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[\frac{1}{|W_l(u)|}\sum_{w\in W_l(u)}\mathbb{P}[w\ closed\ |\ C_2(u)]]] EG[Cl(u)C2(u),Wl(u)>0]=EG[EWl(u)>0[Cl(u)C2(u),Wl(u)]]=EG[EWl(u)>0[Wl(u)1wWl(u)P[w closed  C2(u)]]]
注意到 N 1 ( u ) N_1(u) N1(u) m = C 2 ( u ) ( 2 d u ) m=C_2(u)(_2^{d_u}) m=C2(u)(2du)条边,对于 w ∈ W l ( u ) w\in W_l(u) wWl(u)来说,其中 W l ( u ) W_l(u) Wl(u)就有 ( 2 l − 1 ) (_2^{l-1}) (2l1)条边,剩余 q = m − ( 2 l − 1 ) q=m-(_2^{l-1}) q=m(2l1)条边,在剩下的 r = ( 2 d u ) − ( 2 l − 1 ) r=(_2^{d_u})-(_2^{l-1}) r=(2du)(2l1)个节点对中随机出现。这些边出现的可能有 ( q r ) (_q^r) (qr)种,而 w w w要形成闭合的,则有 ( q − l + 1 r − l + 1 ) (_{q-l+1}^{r-l+1}) (ql+1rl+1)种,于是
P [ w   i s   c l o s e d   ∣ C 2 ( u ) ] = ( q − l + 1 r − l + 1 ) ( q r ) = ( r − l + 1 ) ! q ! ( q − l + 1 ) ! r ! = ( q − l + 2 ) ( q − l + 3 ) … q ( r − l + 2 ) ( r − l + 3 ) … r \mathbb{P}[w\ is\ closed\ |C_2(u)]=\frac{(_{q-l+1}^{r-l+1})}{(_q^r)}=\frac{(r-l+1)!q!}{(q-l+1)!r!}=\frac{(q-l+2)(q-l+3)\dots q}{(r-l+2)(r-l+3)\dots r} P[w is closed C2(u)]=(qr)(ql+1rl+1)=(ql+1)!r!(rl+1)!q!=(rl+2)(rl+3)r(ql+2)(ql+3)q
对于任意小的非负整数 k k k q − k r − k = C 2 ( u ) ⋅ ( 2 d u ) − ( 2 l − 1 ) − k ( 2 d u ) − ( 2 l − 1 ) − k = C 2 ( u ) − [ 1 − C 2 ( u ) ] [ ( 2 l − 1 ) + k ( 2 d u ) − ( 2 l − 1 ) − k ] = C 2 ( u ) − [ 1 − C 2 ( u ) ] O ( 1 / d u 2 ) \frac{q-k}{r-k}=\frac{C_2(u)\cdot(_2^{d_u})-(_2^{l-1})-k}{(_2^{d_u})-(_2^{l-1})-k}=C_2(u)-[1-C_2(u)][\frac{(_2^{l-1})+k}{(_2^{d_u})-(_2^{l-1})-k}]=C_2(u)-[1-C_2(u)]O(1/d_u^2) rkqk=(2du)(2l1)kC2(u)(2du)(2l1)k=C2(u)[1C2(u)][(2du)(2l1)k(2l1)+k]=C2(u)[1C2(u)]O(1/du2)
C 2 ( u ) → 1 C_2(u)\rightarrow 1 C2(u)1 d u → ∞ d_u\rightarrow \infty du时,上式趋于 [ C 2 ( u ) ] l − 1 [C_2(u)]^{l-1} [C2(u)]l1
上式结果是基于随机图的结果,但是实际网络可能与此不同,如果实际计算的 C l ( u ) ≈ [ C 2 ( u ) ] l − 1 C_l(u)\approx[C_2(u)]^{l-1} Cl(u)[C2(u)]l1,其中 C 2 ( u ) C_2(u) C2(u)比较大,则类似于随机图,节点 u u u的邻居节点是密集但随机的,若 C 2 ( u ) C_2(u) C2(u)比较大, C l ( u ) > [ C 2 ( u l − 1 ) ] C_l(u)>[C_2(u^{l-1})] Cl(u)>[C2(ul1)],则是密集且有结构的。

猜你喜欢

转载自blog.csdn.net/wanchaochaochao/article/details/82710748
今日推荐