数据挖掘概念与分析第三章笔记

数据预处理

 数据预处理主要包括以下几步:

数据清理:可以用来清除数据中的噪声,纠正不一致

数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库,第四章会单独讲数据仓库

数据规约:可以通过如聚集,删除冗余特征或聚类来降低数据的规模

数据变换:可以用来把数据压缩到较小的空间,如0.0到1.0

在进行一下操作的时候,我们需要知道为什么要做这些工作。数据质量用准确性,完整性,一致性,时效性,可信性,和解释性。只有当我们经过上面的操作之后,我们得到的数据才具有这些特征,取出来的数据才是有用的数据。

数据清理: 视图填充缺失的值,光滑噪声并识别离群点,纠正数据的不一致

处理缺失值有以下方法:


 忽略元祖:当缺少类标号时通常这样做

人工填写缺失值:这个方法很费时,基本不用

使用一个全局常量填充缺失值:简单但是不可靠

使用属性的中心度量(如中位数或均值)填充缺失值:对于对称的数据分布而言,可以使用均值,而倾斜数据分布应该使用中位数来填充,但是,平均化可能会丧失该元组的个性化。

使用与给定元祖属同一类的所有样本的属性均值或中位数:这个稍微要精确一些,因为它把样本精确到了同一类来。但同样的,平均化可能会丧失该元组的个性化。

使用最可能的值来填充:使用回归,贝叶斯形式化方法的基于推理的工具或决策树归纳确定。


需要注意的是不是所有的缺失值都是错误的值,有些字段是可以为空。 

处理(光滑)噪声数据有以下方法:

 处理噪声数据,那么我们应该要知道什么是噪声。噪声是被测量的变量的随即误差或方差。


分箱:通过考察数据的"邻近"(均值,中位数,箱边界)来光滑有序数据值。因为考察的是邻近值,所以该方法进行局部光滑。

回归:用一个函数拟合数据来光滑数据

离群点分析:通过如聚类来检测离群点,聚类将相似的值组成群或"簇",落在簇集合外的点视为离群点。


许多数据光滑的方法也用于数据离散化和数据归约

数据清理是很重要的过程,也是最耗时的过程,我们一个项目可能百分之三十的时间都用在数据清理上面,只有把数据清理好了之后,后续的操作才会更容易,现在有很多的商业工具可以帮助我们进行数据的清理,但是我们还是要了解数据清理的过程。

数据清理具体怎样操作?

首先是进行偏差检测,就是对缺失值,噪声,编码异常的数据等进行检测。有很多的工具可以帮助我们进行偏差检测。其次就是纠正偏差。数据清理中这两步会迭代执行。

数据集成:合并来自多个数据存储的数据

数据语义的多样性和结构对数据集成提出了巨大的挑战,实际上在数据集成的时候会遇到以下的问题。


实体识别问题:在数据集成中,如何正确,有效,等价的把它们进行匹配?正如书上所说,两个不同的数据库,它们的不同字段可能代表相同的属性,亦或者是两个数据库中字段名相同,但是代表的含义又不相同,这都是需要解决的。

冗余和相关分析:一个属性如果能够由另一个或另一组属性"导出",那么这个属性就是冗余的。属性名的不一致也可能导致数据集中的冗余。

有些冗余可以被相关分析检测到:给定两个属性,可以根据可用的数据,度量一个属性能在多大程度上蕴含另一个

  • 标称数据的卡方检测

书中给出了一个例子,我们照着公式3.1 和3.2不难得出结果。我门通过公式就可知道,卡方公式是检验实际分布与理论分布情况是不是相同,如果得出的值大于卡方分布中的百分表中值,那么我们就拒绝这两个属性相互独立的假设。

  • 数值数据的相关系数

计算两个属性的相关系数,公式不用强记,要用的时候查资料就行。相关系数的绝对值是小于等于1的,如果相关系数大于0,那么属性A和属性B是正相关的,该值越大表明相关性更强。如果相关系数为0,那么表示这两个属性是独立的。小于0,则表示负相关。需要注意的是,相关性并不蕴含因果关系

  • 数值数据的协方差

在统计学中,协方差和方差是两个类似的变量,评估两个属性如何一起变化。直接按照书上的公式来进行计算即可

元祖重复:除了检测属性间的冗余之外,还应当在元祖级检测重复

数据值冲突的检测与处理:对于现实世界的同一实体,来自不同数据源的属性值可能不同等。


数据规约:可以用来得到的数据集规约表示,它小的多,但仍接近于保持原始数据的完整性


维规约:减少所考虑的随即变量或属性的个数

  • 小波变换:把原数据变换或投影到较小的空间。这个还是有点看不懂,哈哈哈~
  • 主成分分析(PCA):PCA通过创建一个替换的,较小的变量集"组合"属性的基本要素。把最主要的成分提取出来,这样就自然而然的对数据进行了规约。
  • 属性子集选择:通过删除不相关或冗余的属性减少数据集,目标在于找出最小的属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。书中列出的四种方法看一下就行

PCA能够更好地处理稀疏矩阵,而小波转换更适合高纬度数据

数量规约:用代替的,较小的数据表示形式替换原数据

  • 参数化数据回归
  • 直方图:分为等宽和等频的
  • 聚类:将对象划分为群或簇,使得在一个簇中的对象相互相似,而与其他簇中的对象相异
  • 抽样:用数据小的多的随即样本表示大型数据集
  • 数据立方体聚集

书中对上述的方法进行了很好的解释,也很容易理解,这里就不细说。

数据压缩 :使用变换,以便得到原数据的规约或"压缩表示"。原数据如果可以从压缩后的数据重构,而不损失信息,那么该数据规约是无损的,如果我们只能近似重构原数据,那么该数据规约是有损的。


数据变换:数据离散化是一种数据变化形式 


  • 光滑:去掉噪声。具体包括分箱,回归,聚类
  • 属性构造:可以有给定的属性构造新的属性并添加到属性集中
  • 聚集:对数据进行汇总或聚集
  • 规范化:把属性按照比例缩放,使之落入一个特定的小区间
  • 离散化:数值属性的原始值用区间标签或概念标签替换
  • 由标称数据产生概念分层:后面第四章会详细介绍

 数据预处理的主要任务之间有许多的重合点。光滑是一种数据清理的方法,属性构造和聚集在数据规约中已经讲到,我们主要来说一下后面三种方法

规范化:规范化数据试图赋予所有属性相等的权重,有最小-最大规范化,z分数规范化,按小数规范化。这三种方式很简单,一看就懂,书中的例子也讲的很详细。

离散化:书中详细讲解了分箱离散化,直方图分析离散化,通过聚类,决策树和相关分析离散化。其实很多技术是通用的,多看几遍理解起来是很简答的。

标称数据产生概念分层:因为看了一点第四章的内容,第四章中涉及到了标称数据产生概念分层,所以第四章的时候再记录

猜你喜欢

转载自blog.csdn.net/Phoenix_tgd/article/details/81508796