数据挖掘复习知识点

数据挖掘定义:

数据挖掘是从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识的过程。

数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。

一次数据挖掘实验分为4个步骤

1)准备数据,包括准备训练数据和检验数据

2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件

3)解释和评估结果

4)模型应用

机器学习算法的划分:

研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

 

分类:

监督学习:

定义

通过对大量已知分类或输出结果值的实例进行训练,调整模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习

数据实例(Instance

用于有指导学习的样本数据

训练实例(Training Instance

用于训练的实例

检验实例(Test Instance

分类模型建立完成后,经过检验实例进行检验,判断模型是否能够很好地应用在未知实例的分类或预测中。

无监督学习:

在学习训练之前,无预先定义好分类的实例,数据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组——簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义

监督学习:

是监督学习与无监督学习相结合的一种学习方法。

半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行数据挖掘工作。

标记的实例用来学习模型,未标记的数据用来改进类边界。

主动学习:

主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度.

数据属性的分类:

枚举或标称属性:能够用有限个元素对属性进行描述的集合。如事物的分类,状态或名称。

头发颜色 = {黑色,棕色,淡黄色,灰色,白色}

婚姻状态,职业,ID,邮编等

二值属性:只有两个状态的枚举属性

对称的二值属性:两种状态具有相同的价值

e.g., 性别

非对称的二值属性:两种状态的重要性不同

e.g., 医学测试(阴性 vs. 阳性)

惯例:将较为重要的取值置为1 (e.g., HIV positive)

Ordinal【序数的;】:

值的顺序具有意义的属性

尺寸= {,, }, 成绩

数值属性:可用整数或实数值度量的属性。

身高,体重,收入

区间标度属性:使用相等的单位尺度度量,可以定量评估属性值的差。

取值有顺序

e.g., 摄氏温度和华氏温度

没有真实的0

比率标度属性:具有固定零点的数值属性

开始温度

工作年限、重量、高度和速度等

离散属性:具有有限个数的取值或无限可数的取值。

年龄,工号

用整数表示的属性

注意:二元属性为一种特殊的离散属性

连续属性:取值为实数的属性。

如温度、重量和高度等

取值通常用浮点数表示

中心趋势度量:

均值,中位数,众数

均值(mean)

算数均值

加权平均

对极端值敏感:截平均

中位数(median):有序数值的中间值

N是奇数,则为中间值,若为偶数,这位最中间两个之间的任意值。

当观测数很大时,将取值划分为区间,并计算每个区间内数值的个数,然后采用差值计算中位数的近似值。

p众数(mode):出现最频繁的值

单峰、双峰和三峰

经验值:

数据散布的度量:

极差、四分位数,方差,标准差,

极差:最大值与最小值只差

分位数:数据分布的每隔一定间隔的点。如四分位数,分别为Q1,中位数,Q3

四分位数极差:Q3-Q1

图:是一种流行的数据分布直观表示

数据的相似性和相异性是聚类、分类、离群点分析等数据挖掘算法的基础。

数据相似性的度量:

相似性:  衡量两个数据对象之间的相似程度。一般而言,值越大代表两个对象越相似。

枚举属性相似性:

二元属相邻性:

闵可夫斯基距离:https://blog.csdn.net/eric41050808/article/details/24365765


 

数据预处理:

衡量数据质量的要素:准确性、完整性、一致性、时效性、可信性和可解释性。

p数据预处理的主要任务

Ø数据清洗

  填充缺失值,平滑噪声数据,识别并删除孤立点,解决不一致问题

 

Ø数据集成

  将多个数据库或数据文件进行集成

 

Ø数据规约

  在取得相同结果的条件下,减少特征数量

 

Ø数据变换

  数据格式、取值区间等的标准化

数据清洗的任务

属性选择与处理

填充空缺

噪声数据的处理:

处理方法:分箱,聚类,回归

进行分箱:【PPT里面有例子!】

l统一权重:所有箱子里面样本的数目相等

l统一区间:所有箱子属性取值区间的长度相同

l自定义:用户自定义

数据集成:

卡方检验

皮尔逊相关系数

例子:

相关系数分析(皮尔逊相关系数)

p数值数据的协方差:

例子:

数据规约:

【小波变换:将数据进行多尺度的细化分析

p数据规约目的

     在保持数据完整的前提下,减少原始数据量,从而增加数据挖掘算法的效率。

 

p规约

    减少所考虑样本的属性个数。小波变换,主成分分析,属性子集选择

 

p数量规约

    用原始数据的子集进行数据挖掘。回归,直方图,聚类,采样,数据立方体集成

 

p数据压缩

    使用变换,以得到原始数据的规约或压缩表示。有损与无损

数据变换与离散化:

p数据变换 

   将数据原始数据映射到新的空间中,实现多个数据库数据的统一。

p规范化 

   将数据原始数据映射到一个较小的区间。

数据离散化:

分箱:

概念分层:

p概念分层与离散化

    标称属性中的取值具有一定的意义,概念分层这些值泛化到较高的概念层。如,年龄小、青、中、老的界定等。

p方法

Ø用户或专家显示说明属性的部分序

Ø通过显示数据分组说明

Ø说明数据集但不说明他们的偏序

Ø只说明部分属性集

Ø3-4-5规则

3-4-5规则:https://blog.csdn.net/weixin_42859280/article/details/93306099

数据仓库与联机分析处理:https://blog.csdn.net/weixin_42859280/article/details/93307343

猜你喜欢

转载自blog.csdn.net/weixin_42859280/article/details/93297530