【数据挖掘学习笔记】4.数据预处理

数据预处理概述

数据预处理 data preprocessing
– 在主要的处理以前对数据进行的一些处理
– 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理

数据预处理形式


其他可能需要数据预处理的情况
– 数据的压缩存储
– 数据形式的转换
– 数据内容的筛选和梳理

例子



预处理方法 ★

数据清理 数据集成与变换 数据归约 离散化和概念分层

1、数据清理

现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。

具体方法:

遗漏值

– 忽略元组
– 人工填写遗漏值
– 使用一个全局常量填充遗漏值
– 使用属性的平均值填充遗漏值
– 使用与给定元组属同一类的所有样本的平均值
– 使用最可能的值填充遗漏值

噪音数据
– 噪音是测量变量的随机错误或偏差
– 去除噪音需要数据平滑技术
• 分箱
• 聚类
• 计算机和人工检查结合
• 回归

不一致数据
– 格式不一致(实际值相同)
– 编码/命名不同(同一个对象)
– 数据冗余(分布式)


2、数据集成

将多个数据源中的数据结合,存放在一致的数据存储中

数据相关性
– 强正相关:共同增加或减少,且变化明显,说明x是y的主要影响因素
– 弱正相关:共同增加或减少,但变化不明显,说明x是y的影响因素,但不是唯一因素
– 强负相关、弱负相关
– 非线性相关:x、y没有明显线性相关关系,但有某种非线性相关关系,x仍是y的影响因素
– 不相关:二者无关

数据变换 

– 规范化 – 数据泛化 – 属性构造 – 平滑 – 聚集

数据泛化
– 数据泛化是一个过程,它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层
– 数据方
– 面向属性的归纳
• 首先使用关系数据库查询收集任务相关的数据;
• 然后,通过考察任务相关数据中每个属性的不同值的个数,进行泛化

泛化规则
– 存在大量不同值,且属性值无法概念分层,删除
– 存在大量不同值,属性值可以概念分层,则将属性值概念分层
– 存在少量不同值,保留

– 不存在不同值,删除

3、数据归约

– 大数据环境下数据量太大
– 直接进行复杂的数据分析和挖掘效率太低
• 更强大的计算能力
• 更效率的挖掘方法
• 减少数据量
– 减少数据量,但并不损失数据特征
– 归约后的数据集上的挖掘结果与原结果相同(几乎相同)

归约策略
– (1)数据立方体聚集:对数据立方体做聚集操作
– (2)属性子集选择:检测并删除不相关、弱相关或冗余的属性和维。
– (3)维度归约:删除不重要的属性
– (4)数值归约:用规模较小的数据表示、替换或估计原始数据

属性维选择算法
– 向前选择:每次增加最优属性
– 向后删除:每次去掉最差属性
– 二者结合:每次选一个最优的,剩余里面去掉一个最差的


4、离散化和概念分层 

– 减少属性值数量 

– 连续值的离散化 

– 定性->定量 

– 更有代表意义

离散化方法
– 分箱
– 直方图
– 聚类
– 基于熵的离散化
– 自然划分


标签提取

TF-IDF算法(Term Frequency-Inverse Document Frequency)
– 源自自然语言处理的统计算法

– 选取一篇文章的代表性关键词



TF-IDF数学含义
– TF:代表性,出现次数越多,代表性越强,TF值越大
– IDF:普遍性,在越多的地方出现,普遍性越强,IDF值越小(逆)
– 标签:一种描述特征,跟代表性和普遍性均有关




猜你喜欢

转载自blog.csdn.net/sigmeta/article/details/80766671
今日推荐