Gephi简易学习[五]———— 分析红楼梦数据,了解Gephi操作流程

处理数据

链接:https://pan.baidu.com/s/11mzYYnU4DBucH0lUhvXrrw 密码:wgbr

操作流程

                                      统计分析→外观→布局→过滤

具体操作步骤:

打开honglou_edge.csv与honglou_node.csv节点

显示标签

统计分析:

模块化计算

 

 

外观

设置:我们这里节点本身颜色与标签颜色都选择的Modularity Class,节点大小与标签尺寸都选择的度

节点——颜色

节点——大小

节点——标签颜色

节点——标签尺寸

 

 布局

 

过滤 

目的:取一些小点的度和大点的度,过滤掉中间的度

步骤:将拓扑---度范围,拉入到查询里面,然后进行度范围设置,最终进行选择

 

目的:将2个度范围进行并集运算

步骤:将拓扑---并集,拉入查询里面,然后将两个度范围拉入并集里

 

 

预览

在下图主要点击节点标签里面的字体与比例大小就行

 

结果分析

统计分析里面的不同算法→选择不同的渲染模式→最终图形,因此我们需要搞懂算法原理,才能进一步分析

 1由于我们节点本身大小与节点标签尺寸都是选择Rank中的度,所以由图可以明显看出谁的度越大,说明在个图中与其他点联系越大,作用越大

2由于我们节点本身颜色和标签颜色的渲染方式都选的模块化,所以整个图以度大的节点最终呈现出社区稳定

对上面操作流程的进一步理解:

统计分析

模块化:Modularity Measure(模块化度量值),由Newman等人提出,是目前常用的一种衡量网络中社区稳定度的方法。

             定义:         

             模块度值的大小主要取决于网络中结点的社区分配C,即网络的社区划分情况,可以用来定量的衡量网络社区划分质量,其值越接近1,表示网络划分出的社区结构的强度越强,也就是划分质量越好。因此可以通过最大化模块度Q来获得最优的网络社区划分。

PageRank

PageRank算法主要应用在搜索引擎的搜索功能中,其主要用来计算网页的重要程度,将最重要的网页展示在网页的前面,此算法主要围绕以下两个假设:

①如果存在一个网页,它被许多其他的链接链接到,则说明这个网页比较重要,则此网页的PageRank值比较高。
②如果存在一个网页,它本身的PageRank值比较高,且此网页又链接了一个网页,则这个被链接的网页比较重要,其PageRank值较高。

外观:

度(degree)—— 一个节点有 n 条边即度数为 n

布局:

Force Atlas:

基于力导向 (Force-directed) 的算法作为弹簧理论算法的一类典型,被广泛应用于描述社交网络等关系型信息图。它的原理其实非常易懂,我们可以把整张网络想象成一个虚拟的物理系统。系统 中的每个节点都可以看成是一个带有一定能量的放电粒子,粒子与粒子之间存在某种库仑斥力,使它们两两相互排斥。同时,有些粒子间被一些“边”所牵连,这些 边产生类似弹簧的胡克引力,又紧紧牵制着“边”两端的粒子。在粒子间斥力和引力的不断作用下,粒子们从随机无序的初态不断发生位移,逐渐趋于平衡有序的终 态。同时整个物理系统的能量也在不断消耗,经过数次迭代后,粒子之间几乎不再发生相对位移,整个系统达到一种稳定平衡的状态,即能量趋于零。此刻,最终的 这幅理想的社交网络图也基本绘制完成。

基本上绝大多数算法都遵循着这样的原则,即:

  1. 将网络看成一个顶点为钢环,边为弹簧的物理系统
  2. 不断迭代,使整个系统的总能量达到最小

清单. 力导向核心算法实现伪代码

Set up initial node positions randomly Loop for k For each node u For each node v net-force += Coulomb_repulsion( u, v ) End For End For For each edge e compute net-force += Hooke_attraction( u1, u2 ) // u1, u2 is start and end node of edge e End For Update x and y values with each net-force // every node has its own net-force End Loop

伪代码的整体思想归纳如下:

  1. 随机分布初始节点位置;
  2. 计算每次迭代局部区域内两两节点间的斥力所产生的单位位移(一般为正值);
  3. 计算每次迭代每条边的引力对两端节点所产生的单位位移(一般为负值);
  4. 步骤 2、3 中的斥力和引力系数直接影响到最终态的理想效果,它与节点间的距离、节点在系统所在区域的平均单位区域均有关,需要开发人员在实践中不断调整;
  5. 累加经过步骤 2、3 计算得到的所有节点的单位位移;
  6. 迭代 n 次,直至达到理想效果。

猜你喜欢

转载自blog.csdn.net/qq_42198024/article/details/84965375