数据挖掘概念与分析第三章笔记

数据预处理

数据预处理主要包括以下几步：

数据清理：可以用来清除数据中的噪声，纠正不一致

数据集成：将数据由多个数据源合并成一个一致的数据存储，如数据仓库，第四章会单独讲数据仓库

数据规约：可以通过如聚集，删除冗余特征或聚类来降低数据的规模

数据变换：可以用来把数据压缩到较小的空间，如0.0到1.0

在进行一下操作的时候，我们需要知道为什么要做这些工作。数据质量用准确性，完整性，一致性，时效性，可信性，和解释性。只有当我们经过上面的操作之后，我们得到的数据才具有这些特征，取出来的数据才是有用的数据。

数据清理：视图填充缺失的值，光滑噪声并识别离群点，纠正数据的不一致

处理缺失值有以下方法：

忽略元祖：当缺少类标号时通常这样做

人工填写缺失值：这个方法很费时，基本不用

使用一个全局常量填充缺失值：简单但是不可靠

使用属性的中心度量(如中位数或均值)填充缺失值：对于对称的数据分布而言，可以使用均值，而倾斜数据分布应该使用中位数来填充，但是，平均化可能会丧失该元组的个性化。

使用与给定元祖属同一类的所有样本的属性均值或中位数：这个稍微要精确一些，因为它把样本精确到了同一类来。但同样的，平均化可能会丧失该元组的个性化。

使用最可能的值来填充：使用回归，贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

需要注意的是不是所有的缺失值都是错误的值，有些字段是可以为空。

处理（光滑）噪声数据有以下方法：

处理噪声数据，那么我们应该要知道什么是噪声。噪声是被测量的变量的随即误差或方差。

分箱：通过考察数据的"邻近"（均值，中位数，箱边界）来光滑有序数据值。因为考察的是邻近值，所以该方法进行局部光滑。

回归：用一个函数拟合数据来光滑数据

离群点分析：通过如聚类来检测离群点，聚类将相似的值组成群或"簇"，落在簇集合外的点视为离群点。

许多数据光滑的方法也用于数据离散化和数据归约

数据清理是很重要的过程，也是最耗时的过程，我们一个项目可能百分之三十的时间都用在数据清理上面，只有把数据清理好了之后，后续的操作才会更容易，现在有很多的商业工具可以帮助我们进行数据的清理，但是我们还是要了解数据清理的过程。

数据清理具体怎样操作？

首先是进行偏差检测，就是对缺失值，噪声，编码异常的数据等进行检测。有很多的工具可以帮助我们进行偏差检测。其次就是纠正偏差。数据清理中这两步会迭代执行。

数据集成：合并来自多个数据存储的数据

数据语义的多样性和结构对数据集成提出了巨大的挑战，实际上在数据集成的时候会遇到以下的问题。

实体识别问题：在数据集成中，如何正确，有效，等价的把它们进行匹配？正如书上所说，两个不同的数据库，它们的不同字段可能代表相同的属性，亦或者是两个数据库中字段名相同，但是代表的含义又不相同，这都是需要解决的。

冗余和相关分析：一个属性如果能够由另一个或另一组属性"导出"，那么这个属性就是冗余的。属性名的不一致也可能导致数据集中的冗余。

有些冗余可以被相关分析检测到：给定两个属性，可以根据可用的数据，度量一个属性能在多大程度上蕴含另一个

标称数据的卡方检测

书中给出了一个例子，我们照着公式3.1 和3.2不难得出结果。我门通过公式就可知道，卡方公式是检验实际分布与理论分布情况是不是相同，如果得出的值大于卡方分布中的百分表中值，那么我们就拒绝这两个属性相互独立的假设。

数值数据的相关系数

计算两个属性的相关系数，公式不用强记，要用的时候查资料就行。相关系数的绝对值是小于等于1的，如果相关系数大于0，那么属性A和属性B是正相关的，该值越大表明相关性更强。如果相关系数为0，那么表示这两个属性是独立的。小于0，则表示负相关。需要注意的是，相关性并不蕴含因果关系

数值数据的协方差

在统计学中，协方差和方差是两个类似的变量，评估两个属性如何一起变化。直接按照书上的公式来进行计算即可

元祖重复：除了检测属性间的冗余之外，还应当在元祖级检测重复

数据值冲突的检测与处理：对于现实世界的同一实体，来自不同数据源的属性值可能不同等。

数据规约：可以用来得到的数据集规约表示，它小的多，但仍接近于保持原始数据的完整性

维规约：减少所考虑的随即变量或属性的个数

小波变换：把原数据变换或投影到较小的空间。这个还是有点看不懂，哈哈哈~
主成分分析(PCA)：PCA通过创建一个替换的，较小的变量集"组合"属性的基本要素。把最主要的成分提取出来，这样就自然而然的对数据进行了规约。
属性子集选择：通过删除不相关或冗余的属性减少数据集，目标在于找出最小的属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。书中列出的四种方法看一下就行

PCA能够更好地处理稀疏矩阵，而小波转换更适合高纬度数据

数量规约：用代替的，较小的数据表示形式替换原数据

参数化数据回归
直方图：分为等宽和等频的
聚类：将对象划分为群或簇，使得在一个簇中的对象相互相似，而与其他簇中的对象相异
抽样：用数据小的多的随即样本表示大型数据集
数据立方体聚集

书中对上述的方法进行了很好的解释，也很容易理解，这里就不细说。

数据压缩 ：使用变换，以便得到原数据的规约或"压缩表示"。原数据如果可以从压缩后的数据重构，而不损失信息，那么该数据规约是无损的，如果我们只能近似重构原数据，那么该数据规约是有损的。

数据变换：数据离散化是一种数据变化形式

光滑：去掉噪声。具体包括分箱，回归，聚类
属性构造：可以有给定的属性构造新的属性并添加到属性集中
聚集：对数据进行汇总或聚集
规范化：把属性按照比例缩放，使之落入一个特定的小区间
离散化：数值属性的原始值用区间标签或概念标签替换
由标称数据产生概念分层：后面第四章会详细介绍

数据预处理的主要任务之间有许多的重合点。光滑是一种数据清理的方法，属性构造和聚集在数据规约中已经讲到，我们主要来说一下后面三种方法

规范化：规范化数据试图赋予所有属性相等的权重，有最小-最大规范化，z分数规范化，按小数规范化。这三种方式很简单，一看就懂，书中的例子也讲的很详细。

离散化：书中详细讲解了分箱离散化，直方图分析离散化，通过聚类，决策树和相关分析离散化。其实很多技术是通用的，多看几遍理解起来是很简答的。

标称数据产生概念分层：因为看了一点第四章的内容，第四章中涉及到了标称数据产生概念分层，所以第四章的时候再记录