##介绍
网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例 (1) C = 6 ∣ K 3 ∣ ∣ W ∣ C=\frac{6|K_3|}{|W|}\tag{1} C=∣W∣6∣K3∣(1)
相应可以定义局部聚集系数 (2) C ( u ) = 2 ∣ K 3 ( u ) ∣ ∣ W ( u ) ∣ C(u)=\frac{2|K_3(u)|}{|W(u)|}\tag{2} C(u)=∣W(u)∣2∣K3(u)∣(2)
平均聚集系数 (3) C ‾ = 1 ∣ V ~ ∣ ∑ u ∈ V ~ C ( u ) \overline{C}=\frac{1}{|\widetilde{V}|}\sum_{u\in\widetilde{V}}C(u)\tag{3} C=∣V
∣1u∈V
∑C(u)(3)
类似的,由 l l l节点团扩展到 l + 1 l+1 l+1节点,则 (4) C l = ( l 2 + l ) ∣ K l + 1 ∣ ∣ W l ∣ C_l=\frac{(l^2+l)|K_{l+1}|}{|W_l|}\tag{4} Cl=∣Wl∣(l2+l)∣Kl+1∣(4)
局部聚集系数 (5) C l ( u ) = l ∣ K l + 1 ( u ) ∣ ∣ W l ( u ) ∣ C_l(u)=\frac{l|K_l+1(u)|}{|W_l(u)|}\tag{5} Cl(u)=∣Wl(u)∣l∣Kl+1(u)∣(5)
平均聚集系数 (6) C ‾ l = 1 ∣ V ~ l ∣ ∑ u ∈ V ~ l C l ( u ) \overline{C}_l=\frac{1}{|\widetilde{V}_l|}\sum_{u\in\widetilde{V}_l}C_l(u)\tag{6} Cl=∣V
l∣1u∈V
l∑Cl(u)(6)
(7) ∣ W l ( u ) ∣ = ∣ K l ( u ) ∣ ( d u − l + 1 ) |W_l(u)|=|K_l(u)|(d_u-l+1)\tag{7} ∣Wl(u)∣=∣Kl(u)∣(du−l+1)(7)
其中 d u d_u duS 节点 u u u的度,替换公式 ( 5 ) (5) (5)则有
(8) C l ( u ) = l ∣ K l + 1 ( u ) ∣ ( d u − l + 1 ) ∣ K l ( u ) ∣ C_l(u)=\frac{l|K_{l+1}(u)|}{(d_u-l+1)|K_l(u)|}\tag{8} Cl(u)=(du−l+1)∣Kl(u)∣l∣Kl+1(u)∣(8)
通过枚举所有 l + 1 l+1 l+1和 l l l节点的团,能计算局部 l t h − o r d e r l\ th-order l th−order的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是 O ( l a l − 2 m ) O(la^{l-2}m) O(lal−2m),其中 m m m是边数, a a a是一种边密度。 a a a可能与 m \sqrt{m} m一样大,若 l l l为常数,则是多项式时间,在至少 l l l节点上确定是否有一个团是 N P C NPC NPC问题。对于全局聚集系数,则有 ∣ W l ∣ = ∑ u ∈ V ∣ W l ( u ) ∣ |W_l|=\sum_{u\in V}|W_l(u)| ∣Wl∣=∑u∈V∣Wl(u)∣。
局部聚集系数可以解释成从所有以节点 u u u为中心的wedge中随机挑选的一个是闭合的概率 (10) C l ( u ) = P [ w ∈ K l + 1 ( u ) ] C_l(u)=\mathbb{P}[w\in K_{l+1}(u)]\tag{10} Cl(u)=P[w∈Kl+1(u)](10)
定义1-hop邻居图 N 1 ( u ) N_1(u) N1(u),节点 u u u周围相邻的节点组成 N 1 ( u ) N_1(u) N1(u)的节点,原来的这些节点之间的连边组成 N 1 ( u ) N_1(u) N1(u)的边。于是公式 ( 8 ) (8) (8)为 (11) l ∣ K l [ N 1 ( U ) ] ∣ ( d u − l + 1 ) ∣ K l − 1 [ N 1 ( u ) ] ∣ \frac{l|K_l[N_1(U)]|}{(d_u-l+1)|K_{l-1}[N_1(u)]|}\tag{11} (du−l+1)∣Kl−1[N1(u)]∣l∣Kl[N1(U)]∣(11)
其中 K k [ N 1 ( u ) ] K_k[N_1(u)] Kk[N1(u)]记为 N 1 ( u ) N_1(u) N1(u)中有 k k k节点团的个数。如果从 N 1 ( u ) N_1(u) N1(u)随机选 l − 1 l-1 l−1节点团,然后再从剩下的点选一个节点 v v v,这 l l l个点组成 l l l节点团的概率就是 (12) C l ( u ) = P [ K ∪ { v } ∈ K l [ N 1 ( u ) ] ] C_l(u)=\mathbb{P}[K\cup\{v\}\in K_l[N_1(u)]]\tag{12} Cl(u)=P[K∪{
v}∈Kl[N1(u)]](12)
C l − 1 ( u ) ⋅ C l ( u ) C_{l-1}(u)\cdot C_l(u) Cl−1(u)⋅Cl(u)是 l − 1 l-1 l−1节点团和两个随机挑选节点组成 l + 1 l+1 l+1节点团的概率,则 (13) ∏ j = 2 l C j ( u ) = ∣ K l [ N 1 ( u ) ] ∣ ( l d u ) \prod_{j=2}^lC_j(u)=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{13} j=2∏lCj(u)=(ldu)∣Kl[N1(u)]∣(13)
对于任意固定 l > 3 l>3 l>3, (14) 0 ≤ C l ( u ) ≤ C 2 ( u ) 0\leq C_l(u)\leq\sqrt{C_2(u)}\tag{14} 0≤Cl(u)≤C2(u)(14)
1.存在有限图 G G G使下界成立,当 C 2 ( u ) ∈ [ 0 , l − 2 l − 1 ] C_2(u)\in[0,\frac{l-2}{l-1}] C2(u)∈[0,l−1l−2]。
2.存在有限图 G G G使上界成立,当 C 2 ( u ) ∈ [ 0 , 1 ] C_2(u)\in[0,1] C2(u)∈[0,1]。
0 ≤ C l ( u ) 0\leq C_l(u) 0≤Cl(u)是显然的,当 N 1 ( u ) N_1(u) N1(u)如上图2所示时, C 2 ( u ) = l − 2 l − 1 C_2(u)=\frac{l-2}{l-1} C2(u)=l−1l−2,通过删去一些边可使范围在 [ 0 , l − 2 l − 1 ] [0,\frac{l-2}{l-1}] [0,l−1l−2]。定义 (15) δ l [ N 1 ( u ) ] = ∣ K l [ N 1 ( u ) ] ∣ ( l d u ) \delta_l[N_1(u)]=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{15} δl[N1(u)]=(ldu)∣Kl[N1(u)]∣(15)记为 N 1 ( u ) N_1(u) N1(u)的 l − c l i q u e l-clique l−clique密度,由文献中的定理则有 δ l [ N 1 ( u ) ] ≤ [ δ l − 1 [ N 1 ( u ) ] ] l / ( l − 1 ) \delta_l[N_1(u)]\leq[\delta_{l-1}[N_1(u)]]^{l/(l-1)} δl[N1(u)]≤[δl−1[N1(u)]]l/(l−1)
δ [ N 1 ( u ) ] ≤ [ δ 2 [ N 1 ( u ) ] ] ( l − 1 ) / 2 \delta[N_1(u)]\leq[\delta_2[N_1(u)]]^{(l-1)/2} δ[N1(u)]≤[δ2[N1(u)]](l−1)/2
再由公式 ( 8 ) (8) (8)知
C l ( u ) ≤ [ δ l − 1 [ N 1 ( u ) ] ] 1 l − 1 ≤ δ 2 [ N 1 ( u ) ] = C 2 ( u ) C_l(u)\leq[\delta_{l-1}[N_1(u)]]^{\frac{1}{l-1}}\leq\sqrt{\delta_2[N_1(u)]}=\sqrt{C_2(u)} Cl(u)≤[δl−1[N1(u)]]l−11≤δ2[N1(u)]=C2(u)
若 N 1 ( u ) N_1(u) N1(u)由 c c c个节点的 c l i q u e clique clique和 b b b个孤立节点组成,当 l = 2 l=2 l=2时有
C l ( u ) = ( 2 c ) ( 2 c + b ) = ( c − 1 ) c ( c + b − 1 ) ( c + b ) → ( c c + b ) 2 C_l(u)=\frac{(^c_2)}{(^{c+b}_2)}=\frac{(c-1)c}{(c+b-1)(c+b)}\rightarrow(\frac{c}{c+b})^2 Cl(u)=(2c+b)(2c)=(c+b−1)(c+b)(c−1)c→(c+bc)2
当 3 ≤ l ≤ c 3\leq l\leq c 3≤l≤c时有
C l ( u ) = l ( l c ) ( c + b − l + 1 ) ( l − 1 c ) = c − l + 1 c + b − l + 1 → c c + b C_l(u)=\frac{l(^c_l)}{(c+b-l+1)(^c_{l-1})}=\frac{c-l+1}{c+b-l+1}\rightarrow\frac{c}{c+b} Cl(u)=(c+b−l+1)(l−1c)l(lc)=c+b−l+1c−l+1→c+bc
当 d u → ∞ d_u\rightarrow\infty du→∞时有 C 2 ( u ) ∈ [ 0 , 1 ] C_2(u)\in[0,1] C2(u)∈[0,1],且 C l ( u ) → C 2 ( u ) C_l(u)\rightarrow\sqrt{C_2(u)} Cl(u)→C2(u)。
现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率 p p p,为了使图中至少有一个 l − w e d g e l-wedge l−wedge,这里假设 l l l比较小,设 p p p和 n n n都比较大,则对于任意 ϵ > 0 \epsilon>0 ϵ>0,clique的节点数量小于 ( 2 + ϵ ) l o g n / l o g ( 1 / p ) (2+\epsilon)log\ n/log(1/p) (2+ϵ)log n/log(1/p)。在 G n , p G_{n,p} Gn,p模型中,当且仅当 l − c l i q u e l-clique l−clique中有 l − 1 l-1 l−1条边出现并有另外一节点与之相邻时,则形成 l − w e d g e l-wedge l−wedge,这 l − 1 l-1 l−1条边的存在概率与 p l − 1 p^{l-1} pl−1有关。
令 G G G为随机图模型 G n , p G_{n,p} Gn,p,对于常数 l l l,
( 1 ) E G [ C l ] = p l − 1 (1)\ \mathbb{E}_G[C_l]=p^{l-1} (1) EG[Cl]=pl−1
( 2 ) E G [ C l ( u ) ∣ W l ( u ) > 0 ] = p l − 1 (2)\ \mathbb{E}_G[C_l(u)|W_l(u)>0]=p^{l-1} (2) EG[Cl(u)∣Wl(u)>0]=pl−1
( 3 ) E G [ C ‾ l ] = p l − 1 (3)\ \mathbb{E}_G[\overline{C}_l]=p^{l-1} (3) EG[Cl]=pl−1
E [ C l ] = E G [ E W l [ C l ∣ W l ] ] = E [ E W l [ 1 ∣ W l ∣ ∑ w ∈ W l P [ w i s c l o s e d ] ] ] = E G [ E W l [ 1 ∣ W l ∣ ∑ w ∈ W l p l − 1 ] ] = E G [ p l − 1 ] = p l − 1 \mathbb{E}[C_l]=\mathbb{E}_G[\mathbb{E}_{W_l}[C_l|W_l]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}\mathbb{P}[w\ is\ closed]]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}p^{l-1}]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[p^{l-1}]\\ \ \ \ \ \ \ \ \ \ =p^{l-1} E[Cl]=EG[EWl[Cl∣Wl]] =E[EWl[∣Wl∣1∑w∈WlP[w is closed]]] =EG[EWl[∣Wl∣1∑w∈Wlpl−1]] =EG[pl−1] =pl−1
对于比较小的 l l l,第二个等号成立,第三个等号成立是因为当且仅当 l − 1 l-1 l−1条边存在时,l-wedge是闭合的。第二部分的证明本质上是相同的,不同的是条件期望是基于所有可能的 W l ( u ) > 0 W_l(u)>0 Wl(u)>0。 V ~ \tilde{V} V~是至少在一个l-wedge中的节点集合,基于 V ~ \tilde{V} V~的条件期望,加上第二部分结论,能有第三部分结果。以上的全局、局部和平均聚集系数随 l l l增大而指数减小。
G G G是 G n , p G_{n,p} Gn,p模型的随机图,对于常数 l l l,
E G [ C l ( u ) ∣ C 2 ( u ) , W l ( u ) > 0 ] = [ C 2 ( u ) − [ 1 − C 2 ( u ) ] O ( 1 / d u 2 ) ] l − 1 ≈ [ C 2 ( u ) ] l − 1 \mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=[C_2(u)-[1-C_2(u)]O(1/d_u^2)]^{l-1}\approx[C_2(u)]^{l-1} EG[Cl(u)∣C2(u),Wl(u)>0]=[C2(u)−[1−C2(u)]O(1/du2)]l−1≈[C2(u)]l−1
基于 W l ( u ) > 0 W_l(u)>0 Wl(u)>0的条件期望
E G [ C l ( u ) ∣ C 2 ( u ) , W l ( u ) > 0 ] = E G [ E W l ( u ) > 0 [ C l ( u ) ∣ C 2 ( u ) , W l ( u ) ] ] = E G [ E W l ( u ) > 0 [ 1 ∣ W l ( u ) ∣ ∑ w ∈ W l ( u ) P [ w c l o s e d ∣ C 2 ( u ) ] ] ] \mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[C_l(u)|C_2(u),W_l(u)]]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[\frac{1}{|W_l(u)|}\sum_{w\in W_l(u)}\mathbb{P}[w\ closed\ |\ C_2(u)]]] EG[Cl(u)∣C2(u),Wl(u)>0]=EG[EWl(u)>0[Cl(u)∣C2(u),Wl(u)]]=EG[EWl(u)>0[∣Wl(u)∣1w∈Wl(u)∑P[w closed ∣ C2(u)]]]
注意到 N 1 ( u ) N_1(u) N1(u)有 m = C 2 ( u ) ( 2 d u ) m=C_2(u)(_2^{d_u}) m=C2(u)(2du)条边,对于 w ∈ W l ( u ) w\in W_l(u) w∈Wl(u)来说,其中 W l ( u ) W_l(u) Wl(u)就有 ( 2 l − 1 ) (_2^{l-1}) (2l−1)条边,剩余 q = m − ( 2 l − 1 ) q=m-(_2^{l-1}) q=m−(2l−1)条边,在剩下的 r = ( 2 d u ) − ( 2 l − 1 ) r=(_2^{d_u})-(_2^{l-1}) r=(2du)−(2l−1)个节点对中随机出现。这些边出现的可能有 ( q r ) (_q^r) (qr)种,而 w w w要形成闭合的,则有 ( q − l + 1 r − l + 1 ) (_{q-l+1}^{r-l+1}) (q−l+1r−l+1)种,于是
P [ w i s c l o s e d ∣ C 2 ( u ) ] = ( q − l + 1 r − l + 1 ) ( q r ) = ( r − l + 1 ) ! q ! ( q − l + 1 ) ! r ! = ( q − l + 2 ) ( q − l + 3 ) … q ( r − l + 2 ) ( r − l + 3 ) … r \mathbb{P}[w\ is\ closed\ |C_2(u)]=\frac{(_{q-l+1}^{r-l+1})}{(_q^r)}=\frac{(r-l+1)!q!}{(q-l+1)!r!}=\frac{(q-l+2)(q-l+3)\dots q}{(r-l+2)(r-l+3)\dots r} P[w is closed ∣C2(u)]=(qr)(q−l+1r−l+1)=(q−l+1)!r!(r−l+1)!q!=(r−l+2)(r−l+3)…r(q−l+2)(q−l+3)…q
对于任意小的非负整数 k k k, q − k r − k = C 2 ( u ) ⋅ ( 2 d u ) − ( 2 l − 1 ) − k ( 2 d u ) − ( 2 l − 1 ) − k = C 2 ( u ) − [ 1 − C 2 ( u ) ] [ ( 2 l − 1 ) + k ( 2 d u ) − ( 2 l − 1 ) − k ] = C 2 ( u ) − [ 1 − C 2 ( u ) ] O ( 1 / d u 2 ) \frac{q-k}{r-k}=\frac{C_2(u)\cdot(_2^{d_u})-(_2^{l-1})-k}{(_2^{d_u})-(_2^{l-1})-k}=C_2(u)-[1-C_2(u)][\frac{(_2^{l-1})+k}{(_2^{d_u})-(_2^{l-1})-k}]=C_2(u)-[1-C_2(u)]O(1/d_u^2) r−kq−k=(2du)−(2l−1)−kC2(u)⋅(2du)−(2l−1)−k=C2(u)−[1−C2(u)][(2du)−(2l−1)−k(2l−1)+k]=C2(u)−[1−C2(u)]O(1/du2)
当 C 2 ( u ) → 1 C_2(u)\rightarrow 1 C2(u)→1且 d u → ∞ d_u\rightarrow \infty du→∞时,上式趋于 [ C 2 ( u ) ] l − 1 [C_2(u)]^{l-1} [C2(u)]l−1。
上式结果是基于随机图的结果,但是实际网络可能与此不同,如果实际计算的 C l ( u ) ≈ [ C 2 ( u ) ] l − 1 C_l(u)\approx[C_2(u)]^{l-1} Cl(u)≈[C2(u)]l−1,其中 C 2 ( u ) C_2(u) C2(u)比较大,则类似于随机图,节点 u u u的邻居节点是密集但随机的,若 C 2 ( u ) C_2(u) C2(u)比较大, C l ( u ) > [ C 2 ( u l − 1 ) ] C_l(u)>[C_2(u^{l-1})] Cl(u)>[C2(ul−1)],则是密集且有结构的。
Higher-order clustering in networks摘要
猜你喜欢
转载自blog.csdn.net/wanchaochaochao/article/details/82710748
今日推荐
周排行