数据挖掘复习知识点

数据挖掘定义：

•数据挖掘是从海量的数据中抽取感兴趣的（有价值的、隐含的、以前没有用但是潜在有用信息的）模式和知识的过程。

•数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。

一次数据挖掘实验分为4个步骤

（1）准备数据，包括准备训练数据和检验数据

（2）选择一种数据挖掘技术或算法，将数据提交给数据挖掘软件

（3）解释和评估结果

（4）模型应用

机器学习算法的划分：

研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

分类：

•监督学习：

定义

通过对大量已知分类或输出结果值的实例进行训练，调整模型的结构，达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导（监督）的学习。

数据实例（Instance）

用于有指导学习的样本数据。

训练实例（Training Instance）

用于训练的实例。

检验实例（Test Instance）

分类模型建立完成后，经过检验实例进行检验，判断模型是否能够很好地应用在未知实例的分类或预测中。

•无监督学习：

在学习训练之前，无预先定义好分类的实例，数据实例按照某种相似性度量方法，计算实例之间的相似程度，将最为相似的实例聚类在一个组——簇（Cluster）中，再解释和理解每个簇的含义，从中发现聚类的意义。

•半监督学习：

是监督学习与无监督学习相结合的一种学习方法。

半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行数据挖掘工作。

标记的实例用来学习模型，未标记的数据用来改进类边界。

•主动学习:

主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精确度.

数据属性的分类：

枚举或标称属性：能够用有限个元素对属性进行描述的集合。如事物的分类，状态或名称。

头发颜色 = {黑色,棕色，淡黄色，灰色，白色}

婚姻状态，职业，ID，邮编等

二值属性：只有两个状态的枚举属性

对称的二值属性：两种状态具有相同的价值

e.g., 性别

非对称的二值属性：两种状态的重要性不同.

e.g., 医学测试(阴性 vs. 阳性)

惯例：将较为重要的取值置为1 (e.g., HIV positive)

Ordinal【序数的;】：

值的顺序具有意义的属性

尺寸= {小,中,大 }, 成绩等

数值属性：可用整数或实数值度量的属性。

身高，体重，收入

区间标度属性：使用相等的单位尺度度量，可以定量评估属性值的差。

取值有顺序

e.g., 摄氏温度和华氏温度

没有真实的0点

比率标度属性：具有固定零点的数值属性

开始温度

工作年限、重量、高度和速度等

离散属性：具有有限个数的取值或无限可数的取值。

年龄，工号

用整数表示的属性

注意：二元属性为一种特殊的离散属性

连续属性：取值为实数的属性。

如温度、重量和高度等

取值通常用浮点数表示

中心趋势度量:

均值，中位数，众数

均值(mean)

算数均值

加权平均

对极端值敏感：截尾平均

中位数(median)：有序数值的中间值

若N是奇数，则为中间值，若为偶数，这位最中间两个之间的任意值。

当观测数很大时，将取值划分为区间，并计算每个区间内数值的个数，然后采用差值计算中位数的近似值。

p众数(mode)：出现最频繁的值

单峰、双峰和三峰

经验值：

数据散布的度量:

极差、四分位数，方差，标准差，盒图

极差：最大值与最小值只差

分位数：数据分布的每隔一定间隔的点。如四分位数，分别为Q1，中位数，Q3。

四分位数极差：Q3-Q1

盒图：是一种流行的数据分布直观表示

数据的相似性和相异性是聚类、分类、离群点分析等数据挖掘算法的基础。

数据相似性的度量：

相似性：衡量两个数据对象之间的相似程度。一般而言，值越大代表两个对象越相似。

枚举属性相似性：

二元属相邻性：

闵可夫斯基距离：https://blog.csdn.net/eric41050808/article/details/24365765

数据预处理：

衡量数据质量的要素：准确性、完整性、一致性、时效性、可信性和可解释性。

p数据预处理的主要任务

Ø数据清洗

填充缺失值，平滑噪声数据，识别并删除孤立点，解决不一致问题

Ø数据集成

将多个数据库或数据文件进行集成

Ø数据规约

在取得相同结果的条件下，减少特征数量

Ø数据变换

数据格式、取值区间等的标准化

数据清洗的任务

属性选择与处理

填充空缺值

噪声数据的处理：

处理方法：分箱，聚类，回归

进行分箱：【PPT里面有例子！】

l统一权重：所有箱子里面样本的数目相等

l统一区间：所有箱子属性取值区间的长度相同

l自定义：用户自定义

数据集成：

卡方检验

皮尔逊相关系数

例子：

相关系数分析（皮尔逊相关系数）

p数值数据的协方差：

例子：

数据规约：

【小波变换：将数据进行多尺度的细化分析】

p数据规约目的

在保持数据完整的前提下，减少原始数据量，从而增加数据挖掘算法的效率。

p维规约

减少所考虑样本的属性个数。小波变换，主成分分析，属性子集选择

p数量规约

用原始数据的子集进行数据挖掘。回归，直方图，聚类，采样，数据立方体集成

p数据压缩

使用变换，以得到原始数据的规约或压缩表示。有损与无损

数据变换与离散化：

p数据变换

将数据原始数据映射到新的空间中，实现多个数据库数据的统一。

p规范化

将数据原始数据映射到一个较小的区间。

数据离散化：

分箱：

概念分层：

p概念分层与离散化

标称属性中的取值具有一定的意义，概念分层这些值泛化到较高的概念层。如，年龄小、青、中、老的界定等。

p方法

Ø用户或专家显示说明属性的部分序

Ø通过显示数据分组说明

Ø说明数据集但不说明他们的偏序

Ø只说明部分属性集

Ø3-4-5规则

3-4-5规则：https://blog.csdn.net/weixin_42859280/article/details/93306099

数据仓库与联机分析处理：https://blog.csdn.net/weixin_42859280/article/details/93307343