Higher-order clustering in networks摘要

##介绍
网络是复杂系统的基本工具，即使有的网络是稀疏的，依然会有的边趋向于出现在小的聚集结构中，这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形，其中两个人共有一个朋友，则更可能成为朋友，形成闭三角。聚集系数是度量网络中的三角形数量，定义为三节点中闭合的比例。然而聚集系数是有限制的，只涉及三角形，更多节点的高阶结构也是重要的，四节点就反映词组和蛋白质网络的结构，但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
首先考虑二节点团，找到与之相连的第三条边和节点，原来的聚集系数就是这种三节点结构中闭合的比例 $C=\frac{6|K_3|}{|W|}\tag{1}$
相应可以定义局部聚集系数 $C(u)=\frac{2|K_3(u)|}{|W(u)|}\tag{2}$
平均聚集系数 $\overline{C}=\frac{1}{|\widetilde{V}|}\sum_{u\in\widetilde{V}}C(u)\tag{3}$
类似的，由 $l$ 节点团扩展到 $l + 1$ 节点，则 $C_l=\frac{(l^2+l)|K_{l+1}|}{|W_l|}\tag{4}$
局部聚集系数 $C_l(u)=\frac{l|K_l+1(u)|}{|W_l(u)|}\tag{5}$
平均聚集系数 $\overline{C}_l=\frac{1}{|\widetilde{V}_l|}\sum_{u\in\widetilde{V}_l}C_l(u)\tag{6}$
$|W_l(u)|=|K_l(u)|(d_u-l+1)\tag{7}$
其中 $d_u$ S 节点 $u$ 的度，替换公式 $(5)$ 则有
$C_l(u)=\frac{l|K_{l+1}(u)|}{(d_u-l+1)|K_l(u)|}\tag{8}$
通过枚举所有 $l + 1$ 和 $l$ 节点的团，能计算局部 $l\ th-order$ 的聚集系数，复杂度取决于枚举的时间，使用Chiba和Nishizeki算法，复杂度是 $O(la^{l-2}m)$ ，其中 $m$ 是边数， $a$ 是一种边密度。 $a$ 可能与 $\sqrt{m}$ 一样大，若 $l$ 为常数，则是多项式时间，在至少 $l$ 节点上确定是否有一个团是 $N P C$ 问题。对于全局聚集系数，则有 $|W_l|=\sum_{u\in V}|W_l(u)|$ 。
局部聚集系数可以解释成从所有以节点 $u$ 为中心的wedge中随机挑选的一个是闭合的概率 $C_l(u)=\mathbb{P}[w\in K_{l+1}(u)]\tag{10}$
定义1-hop邻居图 $N_1(u)$ ，节点 $u$ 周围相邻的节点组成 $N_1(u)$ 的节点，原来的这些节点之间的连边组成 $N_1(u)$ 的边。于是公式 $(8)$ 为 $\frac{l|K_l[N_1(U)]|}{(d_u-l+1)|K_{l-1}[N_1(u)]|}\tag{11}$
其中 $K_k[N_1(u)]$ 记为 $N_1(u)$ 中有 $k$ 节点团的个数。如果从 $N_1(u)$ 随机选 $l - 1$ 节点团，然后再从剩下的点选一个节点 $v$ ，这 $l$ 个点组成 $l$ 节点团的概率就是 $C_l(u)=\mathbb{P}[K\cup\{v\}\in K_l[N_1(u)]]\tag{12}$
$C_{l-1}(u)\cdot C_l(u)$ 是 $l - 1$ 节点团和两个随机挑选节点组成 $l + 1$ 节点团的概率，则 $\prod_{j=2}^lC_j(u)=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{13}$
这里写图片描述
对于任意固定 $l > 3$ ， $0\leq C_l(u)\leq\sqrt{C_2(u)}\tag{14}$
1.存在有限图 $G$ 使下界成立，当 $C_2(u)\in[0,\frac{l-2}{l-1}]$ 。
2.存在有限图 $G$ 使上界成立，当 $C_2(u)\in[0,1]$ 。
$0\leq C_l(u)$ 是显然的，当 $N_1(u)$ 如上图2所示时， $C_2(u)=\frac{l-2}{l-1}$ ，通过删去一些边可使范围在 $[0,\frac{l-2}{l-1}]$ 。定义 $\delta_l[N_1(u)]=\frac{|K_l[N_1(u)]|}{(^{d_u}_l)}\tag{15}$ 记为 $N_1(u)$ 的 $l - c l i q u e$ 密度，由文献中的定理则有 $\delta_l[N_1(u)]\leq[\delta_{l-1}[N_1(u)]]^{l/(l-1)}$
$\delta[N_1(u)]\leq[\delta_2[N_1(u)]]^{(l-1)/2}$
再由公式 $(8)$ 知
$C_l(u)\leq[\delta_{l-1}[N_1(u)]]^{\frac{1}{l-1}}\leq\sqrt{\delta_2[N_1(u)]}=\sqrt{C_2(u)}$
若 $N_1(u)$ 由 $c$ 个节点的 $c l i q u e$ 和 $b$ 个孤立节点组成，当 $l = 2$ 时有
$C_l(u)=\frac{(^c_2)}{(^{c+b}_2)}=\frac{(c-1)c}{(c+b-1)(c+b)}\rightarrow(\frac{c}{c+b})^2$
当 $3\leq l\leq c$ 时有
$C_l(u)=\frac{l(^c_l)}{(c+b-l+1)(^c_{l-1})}=\frac{c-l+1}{c+b-l+1}\rightarrow\frac{c}{c+b}$
当 $d_u\rightarrow\infty$ 时有 $C_2(u)\in[0,1]$ ，且 $C_l(u)\rightarrow\sqrt{C_2(u)}$ 。
现在来看高阶聚类系数在随机图模型的情况，其中每条边都有独立的概率 $p$ ，为了使图中至少有一个 $l - w e d g e$ ，这里假设 $l$ 比较小，设 $p$ 和 $n$ 都比较大，则对于任意 $\epsilon>0$ ，clique的节点数量小于 $(2+\epsilon)log\ n/log(1/p)$ 。在 $G_{n,p}$ 模型中，当且仅当 $l - c l i q u e$ 中有 $l - 1$ 条边出现并有另外一节点与之相邻时，则形成 $l - w e d g e$ ，这 $l - 1$ 条边的存在概率与 $p^{l-1}$ 有关。
令 $G$ 为随机图模型 $G_{n,p}$ ，对于常数 $l$ ，
$(1)\ \mathbb{E}_G[C_l]=p^{l-1}$
$(2)\ \mathbb{E}_G[C_l(u)|W_l(u)>0]=p^{l-1}$
$(3)\ \mathbb{E}_G[\overline{C}_l]=p^{l-1}$
$\mathbb{E}[C_l]=\mathbb{E}_G[\mathbb{E}_{W_l}[C_l|W_l]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}\mathbb{P}[w\ is\ closed]]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[\mathbb{E}_{W_l}[\frac{1}{|W_l|}\sum_{w\in W_l}p^{l-1}]]\\ \ \ \ \ \ \ \ \ \ =\mathbb{E}_G[p^{l-1}]\\ \ \ \ \ \ \ \ \ \ =p^{l-1}$
对于比较小的 $l$ ，第二个等号成立，第三个等号成立是因为当且仅当 $l - 1$ 条边存在时，l-wedge是闭合的。第二部分的证明本质上是相同的，不同的是条件期望是基于所有可能的 $W_l(u)>0$ 。 $\tilde{V}$ 是至少在一个l-wedge中的节点集合，基于 $\tilde{V}$ 的条件期望，加上第二部分结论，能有第三部分结果。以上的全局、局部和平均聚集系数随 $l$ 增大而指数减小。
$G$ 是 $G_{n,p}$ 模型的随机图，对于常数 $l$ ，
$\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=[C_2(u)-[1-C_2(u)]O(1/d_u^2)]^{l-1}\approx[C_2(u)]^{l-1}$
基于 $W_l(u)>0$ 的条件期望
$\mathbb{E}_G[C_l(u)|C_2(u),W_l(u)>0]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[C_l(u)|C_2(u),W_l(u)]]=\mathbb{E}_G[\mathbb{E}_{W_l(u)>0}[\frac{1}{|W_l(u)|}\sum_{w\in W_l(u)}\mathbb{P}[w\ closed\ |\ C_2(u)]]]$
注意到 $N_1(u)$ 有 $m=C_2(u)(_2^{d_u})$ 条边，对于 $w\in W_l(u)$ 来说，其中 $W_l(u)$ 就有 $_2^{l-1})$ 条边，剩余 $q=m-(_2^{l-1})$ 条边，在剩下的 $r=(_2^{d_u})-(_2^{l-1})$ 个节点对中随机出现。这些边出现的可能有 $_q^r)$ 种，而 $w$ 要形成闭合的，则有 $_{q-l+1}^{r-l+1})$ 种，于是
$\mathbb{P}[w\ is\ closed\ |C_2(u)]=\frac{(_{q-l+1}^{r-l+1})}{(_q^r)}=\frac{(r-l+1)!q!}{(q-l+1)!r!}=\frac{(q-l+2)(q-l+3)\dots q}{(r-l+2)(r-l+3)\dots r}$
对于任意小的非负整数 $k$ ， $\frac{q-k}{r-k}=\frac{C_2(u)\cdot(_2^{d_u})-(_2^{l-1})-k}{(_2^{d_u})-(_2^{l-1})-k}=C_2(u)-[1-C_2(u)][\frac{(_2^{l-1})+k}{(_2^{d_u})-(_2^{l-1})-k}]=C_2(u)-[1-C_2(u)]O(1/d_u^2)$
当 $C_2(u)\rightarrow 1$ 且 $d_u\rightarrow \infty$ 时，上式趋于 $C_2(u)]^{l-1}$ 。
上式结果是基于随机图的结果，但是实际网络可能与此不同，如果实际计算的 $C_l(u)\approx[C_2(u)]^{l-1}$ ，其中 $C_2(u)$ 比较大，则类似于随机图，节点 $u$ 的邻居节点是密集但随机的，若 $C_2(u)$ 比较大， $C_l(u)>[C_2(u^{l-1})]$ ，则是密集且有结构的。

Higher-order clustering in networks摘要

猜你喜欢