《数据挖掘》技术与概念(第3章 数据预处理)

第3章 数据预处理

3.1 数据预处理:概述

3.1.1 why

现实世界第数据库极易受噪声、确实值和不一致数据的侵扰。
数据质量:准确性、完整性、一致性、时效性、可信性、可解释性和可存取性。

3.1.2 数据预处理的主要任务

  • 数据清理
  • 数据集成 集成多个数据库、数据立方体或文件(冗余,不一致)
  • 数据规约 降低数据集规模,不损害数据挖掘的结果。分为维规约和数值规约
    维规约,使用数据编码方案,以便得到原始数据的简化或压缩表示。例如,数据压缩技术、属性子集选择和属性构造
    数值规约,使用参数模型或非参数模型,用较小的表示取代数据。
  • 数据变换

3.2 数据清理

3.2.1 缺失值

  1. 忽略元组
  2. 人工填写缺失值
  3. 使用一个全局常量填充缺失值
  4. 使用属性的中心度量(中位数或均值等)填充缺失值
  5. 使用与给定元组属同一类的所有样本的属性均值或中位数
    如果数据倾斜,中位数是刚好的选择
  6. 使用最可能的值填充缺失值
    使用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定

(3)-(6)使数据由偏,填的值可能不正确,(6)最流行

3.2.2 噪声数据

噪声是被测量的变量的随机误差或方差。去掉噪声光滑数据的方法:

  • 分箱
    均值光滑
    中位数光滑
    箱边界光滑
  • 回归 regression
    可以用函数拟合数据来光滑数据
  • 离群点分析
    可以通过如聚类来检测离群点
  • 其他:数据离散化数据归约

3.2.3 数据处理作为一个过程

  1. 第一步:偏差检测

3.3 数据集成

3.3.1 实体识别问题

3.3.2 冗余和相关分析

  1. 标称数据的卡方分布相关检验
    在这里插入图片描述
    在这里插入图片描述
  2. 数值数据的相关系数
    相关度为:
    在这里插入图片描述
    在这里插入图片描述
  3. 数值数据的协方差
    在这里插入图片描述
    可以简化计算为:
    在这里插入图片描述

3.3.3 元组重复

去规范表

3.3.4 数据值冲突的检测与处理

  • 数据的单位不同
  • 数据属性在抽象层中不同

3.4 数据规约

3.4.1 数据规约概述

  • 维规约,减少所考虑的随机变量或属性个数。包括小波变换,主成分分析,属性子集
  • 数量规约,用替代的、较小的数据表示形式替换原数据

3.4.2 小波变换

3.4.3 主成分分析

3.4.4 属性子集选择

3.4.5 回归和对数线性模型:参数化数据规约

3.4.6 直方图

3.4.7 聚类

3.4.8 抽样

3.4.9 数据立方体聚集

3.5 数据变换与数据离散化

发布了57 篇原创文章 · 获赞 12 · 访问量 7700

猜你喜欢

转载自blog.csdn.net/volunteer1024/article/details/101210799