数据挖掘与python实践 |(一)引言

目录

数据挖掘的产生、定义、流程

数据挖掘原因

数据挖掘定义

数据挖掘的流程

数据挖掘的方法

数据挖掘的应用

数据挖掘的产生、定义、流程

数据挖掘原因

  • 数据爆炸问题

自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析;我们拥有丰富的数据,但却缺乏有用的信息。

  • 解决办法:数据仓库技术和数据挖掘技术
  1.  数据仓库(Data Warehouse)和在线分析处理(OLAP);
  2.  数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)

数据挖掘定义

定义:数据挖掘就是从数据中发现知识,具体而言,就是从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

数据挖掘流程

(1)了解应用领域——了解相关的知识和应用的目标;

(2)创建目标数据集;

(3)选择数据,数据清理和预处理(这个可能要占全过程60%的工作量) ,数据压缩和变换;

(4)选择数据挖掘的技术、功能和合适的算法,进行数据挖掘;

(5)寻找感兴趣的模式

(6)模式评估

(7)知识表示

(8)运用发现的知识

  • 挖掘的数据类型

数据定义:数据是对事物描述的符号。在计算机科学中,数据是数字、文字、图像、声音等可以输入到计算机被识别的符号;企业运营离不开数据;用户生成数据。

数据挖掘处理的数据类型:结构化数据和非结构化数据

1. 结构化数据:通常二维表格的形式存储在关系数据库中;

2. 非结构化数据:文本数据、视频数据、音频数据、图像数据。

数据挖掘的方法

常用的分析方法包括分类、聚类、关联分析、数值预测、序列分析、社会网络分析等。

分类:通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象的类别的一种数据挖掘和机器学习技术。

聚类:依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。典型应用:客户群分类。

注意:分类和聚类都属于对数据进行归类,不同点在于:分类针对有标签的数据分析,聚类针对没有标签的数据。

关联分析:发现数据之间的关联规则,经常用在购物篮分析中。

数值预测:用于预测连续变量的取值,常用的预测方法是回归分析。

异常挖掘:也称为孤立点分析,挖掘一些与数据一般特点不一致的孤立点。例如,信用卡客户欺诈检测。

序列分析:对序列数据库进行分析,从中挖掘出有意义模式的技术。

社会网络分析:对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等。

​​​​​​​数据挖掘的应用

  • 数据分析和决策支持

(1)市场分析和管理:目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割

(2)风险分析和管理:风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析

(3)欺骗检测和异常模式的监测 (孤立点)

  • 其它应用

(1)文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘

(2)流数据挖掘

(3)DNA 和生物数据分析

猜你喜欢

转载自blog.csdn.net/Nibaby9/article/details/106765163