Python数据分析与挖掘实战——第一章

目录

一、概述

二、数据挖掘建模过程

1. 定义挖掘目标

2. 数据取样

   1)从业务系统中,抽取出一个与挖掘目标相关的样本数据子集

   2)数据质量!!!

   3)数据抽样

3. 数据探索

4. 数据预处理

5. 挖掘建模

6. 模型评价

三、常用数据挖掘建模工具


 

一、概述

1. 从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。

2. 数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力

 

二、数据挖掘建模过程

1. 定义挖掘目标

    背景知识、用户需求

2. 数据取样

   1)从业务系统中,抽取出一个与挖掘目标相关的样本数据子集

        抽取数据的标准:①相关性 ②可靠性 ③有效性

   2)数据质量!!!

        无缺 无误

   3)数据抽样

  • 随机抽样
  • 等距抽样
  • 分层抽样
  • 从起始顺序抽样
  • 分类抽样——在每个类中 进行上面的抽样

3. 数据探索

    挖掘模型的质量不会超过抽取样本的质量

    先验知识——明显的趋势或规律、没出现过的数据状态、属性之间的相关性、可以被区分为什么类别等

  • 异常值分析
  • 缺失值分析
  • 相关分析
  • 周期性分析

4. 数据预处理

  • 数据筛选
  • 数据变量转换
  • 缺失值处理
  • 坏数据处理
  • 数据标准化
  • 主成分分析
  • 属性选择
  • 数据规约

5. 挖掘建模

    哪类问题:分类、聚类、关联规则、时序模式、智能推荐

6. 模型评价

三、常用数据挖掘建模工具

  1. SAS Enterprise Miner
  2. IBM SPSS Modeler
  3. SQL
  4. Python
  5. Weka
  6. Knime
  7. rapidMiner
  8. tipDM

猜你喜欢

转载自blog.csdn.net/qq_22527013/article/details/88340340