数据挖掘概念与分析第二章笔记

本章主要是为了认识数据的属性和类型,为后面的数据预处理做知识准备

1:数据属性    ---是一个数据字段,表示数据对象的一个特征。有以下的属性类型

  • 标称属性

标称属性的值是一些符号或事物的名称。每个值代表某种类别,编码或状态,因此标称属性又被看做是分类的。标称属性是定性的

  • 二元属性

二元属性是一种标称属性,只有两个类别的状态:0或1,其中0通常表示该属性不出现,1表示出现。二元属性是定性的

一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重,则关于哪个结果应该用0或1编码并无偏好

一个二元属性是非对称的,如果其状态的结果不是同样重要的,如艾滋病,为了方便统计,我门将用1表示阳性,0表示阴性。

  • 序列属性

序列属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。比如说教师职位,有助教,讲师,副教授,教授。这些值具有有意义的先后次序。序列属性是定性的

序列属性也可以通过把数量值的值域划分成有限个有序类别,把数值属性离散化而得到

  • 数值属性

数值属性是定量的,数值属性可以是区间标度的或比率标度的。区间标度和比率标度很好理解,这里不做过多的记录。

  • 离散属性与连续性属性

机器学习领域开发的分类算法通常把属性分成离散的或连续的。离散属性具有无限可数个值,可以用或不用整数表示。如果属性不是离散的,则他们是连续的。

2:数据的基本统计描述    ---中心趋势度量,度量数据散布,图形显示

  • 中心趋势度量

均值:数据的平均值,对应关系数据库系统提供的内置聚集函数average

加权算术均值 / 加权平均:每个值可以与一个权重相关,具体公式为书 (2.2)

中位数:是有序数据值的中间值。对于倾斜数据,数据中心的更好度量是中位数。

数据集的中位数:结合后面的习题就可以很好的理解,公式(2.3)

众数:数据集的众数是集合中出现最频繁的值。

中列数:数据集中的最大和最小值的平均值。

  • 度量数据散布

极差:数据集中的最大值和最小值的差。

四分位数:把数据分布划分为4个相等的部分,使得每部分表示数据分布的四分之一

四分位极差:IQR=Q3-Q1。第一个和第三个四分位数之间的距离为四分位极差,它给出被数据的中间一半所覆盖的范围

五数概括:由中位数,四分位数Q1和Q3,最小和最大观测值组成,按次序,min,Q1,中位数,Q3,max写出。用盒图来体现五数概括。

    需要注意的是:在处理数量适中的观测值时,值得个别的绘出可能的离群点。仅当最高和最低观测值超过四分位数不到1.5*IQR的时候,画出两个最值,否则,当最值在出现四分位数的1.5*IQR之内的最极端的观测值处终止,剩余的情况个别地绘出

方差和标准差:这个都知道,不细说。

  • 图形显示    

一元属性分布的图有三种:分位数图,分位数-分位数图,直方图。二元属性的图为散点图

分位数图:是一种观察单变量数据分布的简单有效方法,书中介绍的很清楚,要是刚开始看不懂的话可以多看两遍。

分位数-分位数图(q-q图):Q-Q图实际上可以反映出两种分布的走势及区别。书中只是简单的介绍了一下,但是图2.5还是可以很好理解Q-Q图。

直方图:简单点来说就是我们理解的柱状图,把数据分为等宽的连续子域,高度表示我们观测值的商品计数

散点图:是确定两个数值变量之间看上去是否存在联系,模式或趋势的最有效的图形方法之一。

3:度量数据的相似性和相异性 

    我们提供了两种数据结构:数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象对的相异性值)

猜你喜欢

转载自blog.csdn.net/Phoenix_tgd/article/details/81481356
今日推荐