《IBM SPSS Modeler数据与文本挖掘实战》之社交网络分析

社交网络分析将关于关系的信息转换为字段，这些字段可描述个人和组的社交行为的特征。社交网络分析可识别影响网络中他人行为的社交领导。此外，可确定受其他网络参与者影响最大的个体。通过结合这些结果和其他测量，可创建个人的综合配置文件，作为预测模型的基础，包括此社交信息的模型比不包括的模型执行效果更好。

本章将首先介绍社交网络分析的基本知识，包括模型定义、模型应用、建模步骤和一些重要的模型注意事项，随后详细介绍在SPSS Modeler软件中使用社交网络分析的方法对电信行业潜在流失客户进行研究，并得出研究结论。

13.1 社交网络分析模型概述

社交网络分析（SNA）是SPSS Modeler 15的一个新功能。SNA用于映射和度量个人、组和其他实体（定义为节点）之间的关系，其典型应用包括客户流失预警、病毒式营销等，也可以与传统数据挖掘模型结合使用以提高后者的性能。本章将介绍Modeler中两种SNA模块的算法原理，并通过实例讲解，使读者了解SNA的使用方法。

13.1.1 模型定义

社交网络分析是人、组织、计算机、其他信息或知识处理实体之间的关系和流动信息的映射及测量。图13-1是社交网络的一个示意图，其中的节点表示人、组织、计算机、其他信息或知识处理实体；连线表示节点之间的关系或信息流动。信息流动的方式有很多，例如邮件、电话、短信、博客等。假设A经常与B和C通电话，通过分析A的电话ID记录，可以构筑出图13-1中的简单社交网络。从此图中我们可以看出A、B、C三人中，A具有较强的影响力。如果A获得了正面或者负面的消息，该消息会很快传递给B和C，而B与C之间的影响力是间接的，只能通过A来传播。

图13-1 社交网络示意图

随着节点和连线的增加，社交网络的复杂程度迅速提升。图13-2展示了一个较为典型的社交网络。大型和超大型的社交网络的处理是手工分析方式无法完成的。在过去的20年中，社交网络分析领域的快速发展，在很大程度上得益于计算机计算能力的提升和各种数据挖掘方法的发展。

图13-2 一个典型的社交网络

13.1.2 模型应用

目前有两种算法支持社交网络分析功能，分别称作GA和DA。GA的全称为Group Analysis，是一种基于群体的分析方法：DA的全称为Diffusion Analysis，着眼于计算一些人的行为对网络中其他人的冲击强度。在Modeler 15中这两个算法以两个“源“节点的形式出现，如图13-3所示。

图13-3 两个“源”节点：GA和DA

社交网络分析将有关人们之间关系的信息处理成字段，这些字段介绍社交网络中的个人角色，允许在预测模型中包括社交信息。

关于社交网络分析，许多对行为建模的方法都侧重于个人。它们使用有关个人的各种数据生成一个模型，并使用行为的关键指标进行预测。如果任何个人拥有的关键指标值与行为的发生相关联，则可以特殊关注该个人以防止该行为。

考虑为流失建模的方法，流失表示客户终止与公司的关系。挽留客户的成本比取代他们的成本低得多，因此要具有识别存在流失风险的客户的能力。分析师通常使用一系列关键绩效指标描述客户，包括人口统计信息和每位个人客户的最近通话模式。基于这些字段的预测模型，使用符合过去已流失的客户通话模式中的变化，来识别增加流失风险的人员，对于已识别为存在风险的客户，则可提供额外客户服务或服务选项以挽留他们。

这些方法会忽略可能严重影响客户行为的社交信息。有关公司和其他人当前行动的信息通过关系流动影响着人们，因此，和他人的关系允许那些人影响一个人的决定和行动，若只包括个人衡量的分析则忽略了具有预测能力的重要因素。

社交网络分析通过将关系信息处理为可包括在模型中的附加字段解决此问题。这些导出的关键绩效指标可衡量个人的社交特征。将这些社交属性与基于个人的衡量结合起来，可提高模型的预测精度。

SPSS Modeler社交网络分析服务将包括数以百万计的个人和关系的大量网络数据高效处理为相对少量的字段，并进行深入分析。例如，在社交网络分析中识别网络中最受特定人员流失影响的个人。此外，可发现网络中流失风险提高的个人组。通过在模型中结合这些影响的关键绩效指标，可提高它们的总体绩效。

社交网络分析节点的处理必须通过SPSS Modeler社交网络分析服务完成。当在SPSS Modeler中执行包含社交网络分析节点的流时，必须连接到也包含SPSS Modeler社交网络分析服务的SPSS Modeler Server实例。

社交网络由一组个人和他们之间的关系组成。社交网络分析检查这些关系，以说明作为社交结构组成部分的个人和组。个人彼此交互，而这些交互模式提供对参与的个人的深入了解。关系允许信息在网络中流动，让一个人影响另一个人。关系信息的重要性将社交网络分析和其他方法区别开来。和分别关注每个人不同，研究单位是包括两个人和他们关系的成对单位。

13.1.3 建模步骤

下面简单介绍一下社交网络分析中的GA和DA两种算法的基本原理。假设我们拥有过去一年里某个地区的电话清单，数据量在百万到千万条左右，这些数据记录了拨号者和接收者，如图13-4所示。

图13-4 GA和DA的输入数据

GA模型收到这些数据后，会进行如下的分析：

根据共有邻接节点的数量，量化各个节点（也就是张三、李四、王五……）之间联系的强度。
保留高强度的联系，去除低强度的联系。执行此步骤后，社交网络会退化成几个内部联系多、外部联系少的次网络，以及很多孤立的节点。每个次网络对应一个群体，称为这个群体的核。
把那些孤立的节点连到距离他们最近的群体中去。在上一步中暂时去除的低强度的联系，在这一步发挥了主要作用。
对各个群体以及群体里的个体进行分析画像，例如评估群体内每个个体的地位，找出“领袖”、计算群体密度等，这些特性将用在后续应用中。

相比之下，DA的算法原理要更简单一些。DA不会将网络分成群体，而是在原网络上进行计算。DA着眼于计算一些人的行为对网络中其他人的冲击强度。

收到如图13-4所示的数据后，DA会构筑一个有向加权网络，如图13-5所示。网络中的节点代表人、组织、计算机、其他信息或知识处理实体；连线表示节点之间的关系或信息流动；连线的方向表示了关系的主动、被动方，或者信息流动的方向（通常为双向，图13-5省略了此内容）。

DA还需要有行为发生人的名单，行为可以是从公司辞职、更换手机服务商、试用了某种产品等。这些人被称作“初始扩散点”，由图13-5中的红色节点表示。接下来，设定初始扩散点的冲击强度，然后采用衰败扩散过程就可以估计出其他节点所受到的冲击大小。

图13-5 DA算法解析

13.1.4 注意事项

我们在进行社交网络分析时，需要注意以下两点：

社交网络中的关系可分为方向或非方向。在方向关系中，会将一个人识别为关系的发起者，另一个人识别为接收者。例如，打电话是一种方向关系，一个人呼叫另一个人。同时源和目的地的角色不能定义为非方向关系，在这种情况下，双方都为均等参与关系，彼此交谈是非方向关系的一种实例。
重视关系包括指示关系强度的权重。该权重允许关系互相比较，“关系类型”表格按方向和尺度列出关系的交叉分类实例。例如在方向关系中，Joe是关系的源，Mary是目的地。在非方向关系中，不会指示关系的发起人。

13.2 应用实例：客户流失预警分析

在前面几章中已经讨论过客户流失的例子，使用的是回归分析方法，但这种方法只是对变量进行回归，从而找出主要的影响因素，不能对潜在的流失客户进行预测，本例将使用社交网络分析方法来解决这个问题，使运营商能根据预测结果，更有效地找出潜在的流失客户，提高客户的保留率，从而可显示出该方法具有明显的优势。

详细内容请参考《IBM SPSS Modeler数据与文本挖掘实战》中的相关章节的内容。

王国平

发布了32 篇原创文章 · 获赞 13 · 访问量 5万+

私信关注

《IBM SPSS Modeler数据与文本挖掘实战》之社交网络分析

猜你喜欢