一 数据挖掘基础

从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模型和趋势,并用这些知识和规律建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;它利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的综合。

1. 数据挖掘的基本任务

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助提取数据中蕴含的商业价值。

2. 数据挖掘建模过程

  1. 定义挖掘目标
  2. 数据取样
  3. 数据探索
  4. 数据预处理
  5. 挖掘建模
  6. 模型评价

  1. 定义挖掘目标是根本(确认目标,了解相关领域知识及背景,弄清楚用户需求)。
  2. 数据取样:明确挖掘目标后,需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集,(标准:相关性、可靠性、有效性,完整性[非全部数据]),检验数据质量(衡量标准:资料完整指标齐全、数据准确无异常值、)。数据抽样提取方法(包括但不限于:随机抽样、等距抽样、分层抽样、从起始顺序抽样、分类抽样)。
  3. 数据探索:包括异常值(离散值等)分析、缺失值分析、相关性分析、周期性分析。
  4. 数据预处理:数据筛选、数据变量转换、缺失异常值处理、坏数据处理、数据标准化、主成分分析处理、属性选择、数据规约、降维处理等。
  5. 挖掘建模:(分类、聚类、关联规则、时序模式或者智能推荐等其中一种或者多种算法进行建模)
  6. 模型评价:根据分析结果,选择最优模型进行解释和应用。

3. 常用的数据挖掘建模工具

  • Python
  • WEKA

猜你喜欢

转载自www.cnblogs.com/persist0701/p/11409980.html