网络挖掘的初步认识

由此引出网络挖掘的概念，它指的是数据挖掘技术在网络信息处理上的应用。信息化的逐步深入和可获取数据爆炸性的增长，为网络挖掘的发展提供了足够的沃土，引起多个学科的关注和涉足，如社会组织学、信息管理学和计算机科学。随着大数据时代的来临，旨在快速、高效获取知识的网络挖掘将获取的巨大的发展空间，成为一门真正的科学。

网络挖掘的重要人物有卡内基梅隆大学的Christos Falousos、康奈尔大学的John Kleinberg、Jure Leskovec等，数据挖掘领域的宗师级人物韩家炜近几年也将研究重点投入到网络分析中来，并提出异构信息网络挖掘将成为数据挖掘的下一个前沿领域。前不久在北京举行的数据挖掘顶级会议ACM SIGKDD中，主办方开设了10余个与社会网络相关的workshop,社会网络研究的火爆程度，可见一斑。值得我们骄傲的是，该领域华人科学家有着非常强劲的实力，难怪数据挖掘领域的泰斗人物Christos Falousos夸张地说，这个领域只有他不是中国人了。

具体说一下网络挖掘，常用的网络度量指标有最短路径、网络直径和中心度，最短路径指两个节点之间最短的连线序列，根据图的不同，“最短”的定义也不同，对于无权图，最短即连线的数目最少，对于有权图，最短指这两个节点之间连线的权重之和最小；而网络直径就是一个图中最大的最短路径；中心度分三种类型，依次是normalized centrality degree、betweenness centrality和closeness Centrality，具体来说，normalized centrality degree通过与某节点直接相邻的其他节点数目来反映节点的重要性，betweenness centrality衡量的是这个节点在整个图中的不可替代性，closeness Centrality说的是该点到图中其他点之间最短路径的平均距离，一般来说，这三个中心度之间的关系是正相关，如果不是这样，那往往说明网络中发生了一些有趣的事情，值得你去跟进研究。

再说一下当前网络挖掘的最热点领域，个人感觉非网络演化莫属了。这方面的研究从2004年起逐步增多，通常的研究方法是观察网络属性比如密度、直径、中心度、组件、社区等属性随时间的变化情况，通过研究，学界得出一些非常有趣的结论，比如专利引用网络的节点和连线之间存在power law关系，随着时间发展，连线数量的增长速度大于节点数量的增速，而整个专利引用网络直径则不断减小，这种现象映射到现实中，反映了不同技术领域的研发工作关联愈发密切，多个技术领域的交叉点往往是新技术的高发区。当然，仅仅靠观察各个指标随时间的变化情况来研究网络演化，距离真正的科研工作还很远，我们还需要提出数学模型来刻画网络变化中的出现的各种特征。以往的研究工作中提出的数学模型以及这些模型所覆盖的网络特征如下表所示：

	Random attachments	Preferential attachments	Copying model	Community Guided attachment	Forest fire model
Power-law degree distribution	×	∨	∨	∨	∨
community	×	×	∨	×	∨
Densification power-law	×	×	×	∨	∨
Shrinking diameter	×	×	×	×	∨

从上表可看出，虽然Forest Fire model同时覆盖了社会网络的四个重要特征，但仍存在重要不足，它没有表现出社会网络的Small world特征、平均路径长度变化特征、网络集中度变化特征等等，可见，未来的研究中这方面仍然有大量的工作需要完成。

另一个值得关注的网络演化问题是社区演化，所谓社区，即有共同特征的成员所组成的集合。随时间发展，不同社区之间及社区内部的成员特征会发生变化，从而产生社区分裂、融合、消亡、产生等现象，研究社区演化，对理解进而掌握社会发展、科技进步、舆论动向等都具有重要意义。社区演化包括两个部分，一是社区的产生，二是社区的演化。社区的产生就是通过各种聚类方法将成员聚集成不同的社区，社区内部成员关系密切，社区之间成员关系稀疏。传统的聚簇方法有K-Means、K-Medoids等算法，但此类算法的缺陷是它只将距离较近的具有一定相似度的成员聚成一类，而对距离较远的成员无能为力，更好的聚类方法是Spectral Clustering，它的总体思路是将特征空间降维后再聚类，这种聚类方法可以完全克服K-Means算法的缺点，但它对学习者的数学基础（如高等数理统计、矩阵分析等）有较高要求。Spectral Clustering算法是当前聚类算法研究的热点，今年KDD会议关于聚类的workshop中，关于Spectral Clustering的论文就占到了一半。

谈到该领域的重要文章，我觉得可以重点关注下Jure Leskovec的论文，他的研究偏重实践多点，此君虽然英语口音极重，但文章是不折不扣的精品；相比之下，Michael Jordon的文章更加偏理论、偏数学，深度上要更深一些；说到最近的文章，荣获KDD’2012 Best Student Paper Award的两篇文章给人的印象很深刻，其中Integrating Meta-Path Selection with User-Guided Object Clustering in Heterogeneous Information Networks讲述在影响网络变化的诸多因素中，如何筛选出用户最关注的因素，另一篇文章Intrusion as (Anti)social Communication: Characterization and Detection，用于检测网络入侵，作者的思路是入侵元素在入侵前，与业已形成的网络社区结构相比而言特征明显，可以作为入侵检测的判别标准。这两篇文章给我总的印象是能够准确抓住当前科研前沿的关键问题，并给出漂亮的解答，它们不仅对自身领域，而且对其他领域的工作有很大的推动作用，比如第二篇文章对于情报学领域的突破性技术识别研究就很有建设性。

最后再谈一下网络分析工具，较有代表性是pajek、Guess、NetLogo和Igraph。pajek可免费获取，它内置的算法多、功能强大，但缺点也同样明显，它的界面操作不便、图形效果丑陋，而且不支持扩展；相比之下Guess、Igraph具有良好的可扩展性，很容易与当前统计分析技术结合使用，Netlogo为网络建模提供了良好的支持，并且它支持网络演化过程的动态展示，因此可以制作出一些不错的动画效果。

网络挖掘的初步认识

猜你喜欢