数据挖掘与python实践 |（一）引言

数据挖掘的产生、定义、流程

数据挖掘原因

数据挖掘定义

数据挖掘的流程

数据挖掘的方法

数据挖掘的应用

数据挖掘的产生、定义、流程

数据挖掘原因

数据爆炸问题

自动数据收集工具和成熟的数据库技术使得大量的数据被收集，存储在数据库、数据仓库或其他信息库中以待分析；我们拥有丰富的数据，但却缺乏有用的信息。

解决办法：数据仓库技术和数据挖掘技术

数据仓库(Data Warehouse)和在线分析处理(OLAP)；
数据挖掘：在大量的数据中挖掘感兴趣的知识（规则，规律，模式，约束）

数据挖掘定义

定义：数据挖掘就是从数据中发现知识，具体而言，就是从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

数据挖掘流程

（1）了解应用领域——了解相关的知识和应用的目标；

（2）创建目标数据集；

（3）选择数据，数据清理和预处理(这个可能要占全过程60％的工作量) ，数据压缩和变换；

（4）选择数据挖掘的技术、功能和合适的算法，进行数据挖掘；

（5）寻找感兴趣的模式

（6）模式评估

（7）知识表示

（8）运用发现的知识

挖掘的数据类型

数据定义：数据是对事物描述的符号。在计算机科学中，数据是数字、文字、图像、声音等可以输入到计算机被识别的符号；企业运营离不开数据；用户生成数据。

数据挖掘处理的数据类型：结构化数据和非结构化数据

1. 结构化数据：通常二维表格的形式存储在关系数据库中；

2. 非结构化数据：文本数据、视频数据、音频数据、图像数据。

数据挖掘的方法

常用的分析方法包括分类、聚类、关联分析、数值预测、序列分析、社会网络分析等。

分类：通过对具有类别的对象的数据集进行学习，概括其主要特征，构建分类模型，根据该模型预测对象的类别的一种数据挖掘和机器学习技术。

聚类：依据物以类聚的原理，将没有类别的对象根据对象的特征自动聚集成不同簇的过程，使得属于同一个簇的对象之间非常相似，属于不同簇的对象之间不相似。典型应用：客户群分类。

注意：分类和聚类都属于对数据进行归类，不同点在于：分类针对有标签的数据分析，聚类针对没有标签的数据。

关联分析：发现数据之间的关联规则，经常用在购物篮分析中。

数值预测：用于预测连续变量的取值，常用的预测方法是回归分析。

异常挖掘：也称为孤立点分析，挖掘一些与数据一般特点不一致的孤立点。例如，信用卡客户欺诈检测。

序列分析：对序列数据库进行分析，从中挖掘出有意义模式的技术。

社会网络分析：对社会网络的结构和属性进行分析，以发现其中的局部或全局特点，发现其中有影响力的个人或组织，发现网络的动态变化规律等。

数据挖掘的应用

数据分析和决策支持

（1）市场分析和管理：目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割

（2）风险分析和管理：风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析

（3）欺骗检测和异常模式的监测 (孤立点)

其它应用

（1）文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘

（2）流数据挖掘

（3）DNA 和生物数据分析