本章主要是为了认识数据的属性和类型,为后面的数据预处理做知识准备
1:数据属性 ---是一个数据字段,表示数据对象的一个特征。有以下的属性类型
- 标称属性
标称属性的值是一些符号或事物的名称。每个值代表某种类别,编码或状态,因此标称属性又被看做是分类的。标称属性是定性的
- 二元属性
二元属性是一种标称属性,只有两个类别的状态:0或1,其中0通常表示该属性不出现,1表示出现。二元属性是定性的
一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重,则关于哪个结果应该用0或1编码并无偏好
一个二元属性是非对称的,如果其状态的结果不是同样重要的,如艾滋病,为了方便统计,我门将用1表示阳性,0表示阴性。
- 序列属性
序列属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。比如说教师职位,有助教,讲师,副教授,教授。这些值具有有意义的先后次序。序列属性是定性的
序列属性也可以通过把数量值的值域划分成有限个有序类别,把数值属性离散化而得到
- 数值属性
数值属性是定量的,数值属性可以是区间标度的或比率标度的。区间标度和比率标度很好理解,这里不做过多的记录。
- 离散属性与连续性属性
机器学习领域开发的分类算法通常把属性分成离散的或连续的。离散属性具有无限可数个值,可以用或不用整数表示。如果属性不是离散的,则他们是连续的。
2:数据的基本统计描述 ---中心趋势度量,度量数据散布,图形显示
- 中心趋势度量
均值:数据的平均值,对应关系数据库系统提供的内置聚集函数average
加权算术均值 / 加权平均:每个值可以与一个权重相关,具体公式为书 (2.2)
中位数:是有序数据值的中间值。对于倾斜数据,数据中心的更好度量是中位数。
数据集的中位数:结合后面的习题就可以很好的理解,公式(2.3)
众数:数据集的众数是集合中出现最频繁的值。
中列数:数据集中的最大和最小值的平均值。
- 度量数据散布
极差:数据集中的最大值和最小值的差。
四分位数:把数据分布划分为4个相等的部分,使得每部分表示数据分布的四分之一
四分位极差:IQR=Q3-Q1。第一个和第三个四分位数之间的距离为四分位极差,它给出被数据的中间一半所覆盖的范围
五数概括:由中位数,四分位数Q1和Q3,最小和最大观测值组成,按次序,min,Q1,中位数,Q3,max写出。用盒图来体现五数概括。
需要注意的是:在处理数量适中的观测值时,值得个别的绘出可能的离群点。仅当最高和最低观测值超过四分位数不到1.5*IQR的时候,画出两个最值,否则,当最值在出现四分位数的1.5*IQR之内的最极端的观测值处终止,剩余的情况个别地绘出
方差和标准差:这个都知道,不细说。
- 图形显示
一元属性分布的图有三种:分位数图,分位数-分位数图,直方图。二元属性的图为散点图
分位数图:是一种观察单变量数据分布的简单有效方法,书中介绍的很清楚,要是刚开始看不懂的话可以多看两遍。
分位数-分位数图(q-q图):Q-Q图实际上可以反映出两种分布的走势及区别。书中只是简单的介绍了一下,但是图2.5还是可以很好理解Q-Q图。
直方图:简单点来说就是我们理解的柱状图,把数据分为等宽的连续子域,高度表示我们观测值的商品计数
散点图:是确定两个数值变量之间看上去是否存在联系,模式或趋势的最有效的图形方法之一。
3:度量数据的相似性和相异性
我们提供了两种数据结构:数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象对的相异性值)