数据预处理概述

数据预处理 data preprocessing
– 在主要的处理以前对数据进行的一些处理
– 现实世界的数据通常无法直接进行数据挖掘，或挖掘结果差强人意，为了提高数据挖掘的质量需要对现实数据进行处理

数据预处理形式

其他可能需要数据预处理的情况
– 数据的压缩存储
– 数据形式的转换
– 数据内容的筛选和梳理

例子

预处理方法 ★

数据清理数据集成与变换数据归约离散化和概念分层

1、数据清理

现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值，识别局外者、消除噪音，并纠正数据中的不一致。

具体方法：

遗漏值

– 忽略元组
– 人工填写遗漏值
– 使用一个全局常量填充遗漏值
– 使用属性的平均值填充遗漏值
– 使用与给定元组属同一类的所有样本的平均值
– 使用最可能的值填充遗漏值

噪音数据
– 噪音是测量变量的随机错误或偏差
– 去除噪音需要数据平滑技术
• 分箱
• 聚类
• 计算机和人工检查结合
• 回归

不一致数据
– 格式不一致（实际值相同）
– 编码/命名不同（同一个对象）
– 数据冗余（分布式）

2、数据集成

将多个数据源中的数据结合，存放在一致的数据存储中

数据相关性

– 强正相关：共同增加或减少，且变化明显，说明x是y的主要影响因素
– 弱正相关：共同增加或减少，但变化不明显，说明x是y的影响因素，但不是唯一因素
– 强负相关、弱负相关
– 非线性相关：x、y没有明显线性相关关系，但有某种非线性相关关系，x仍是y的影响因素
– 不相关：二者无关

数据变换

– 规范化 – 数据泛化 – 属性构造 – 平滑 – 聚集

数据泛化

– 数据泛化是一个过程，它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层
– 数据方
– 面向属性的归纳
• 首先使用关系数据库查询收集任务相关的数据；
• 然后，通过考察任务相关数据中每个属性的不同值的个数，进行泛化

泛化规则
– 存在大量不同值，且属性值无法概念分层，删除
– 存在大量不同值，属性值可以概念分层，则将属性值概念分层
– 存在少量不同值，保留

– 不存在不同值，删除

3、数据归约

– 大数据环境下数据量太大
– 直接进行复杂的数据分析和挖掘效率太低
• 更强大的计算能力
• 更效率的挖掘方法
• 减少数据量
– 减少数据量，但并不损失数据特征
– 归约后的数据集上的挖掘结果与原结果相同（几乎相同）

归约策略

– （1）数据立方体聚集：对数据立方体做聚集操作
– （2）属性子集选择：检测并删除不相关、弱相关或冗余的属性和维。
– （3）维度归约：删除不重要的属性
– （4）数值归约：用规模较小的数据表示、替换或估计原始数据

属性维选择算法
– 向前选择：每次增加最优属性
– 向后删除：每次去掉最差属性
– 二者结合：每次选一个最优的，剩余里面去掉一个最差的

4、离散化和概念分层

– 减少属性值数量

– 连续值的离散化

– 定性->定量

– 更有代表意义

离散化方法
– 分箱
– 直方图
– 聚类
– 基于熵的离散化
– 自然划分

标签提取

TF-IDF算法（Term Frequency-Inverse Document Frequency）
– 源自自然语言处理的统计算法

– 选取一篇文章的代表性关键词

TF-IDF数学含义
– TF：代表性，出现次数越多，代表性越强，TF值越大
– IDF：普遍性，在越多的地方出现，普遍性越强，IDF值越小（逆）
– 标签：一种描述特征，跟代表性和普遍性均有关

【数据挖掘学习笔记】4.数据预处理