数据挖掘概念与分析第二章笔记

本章主要是为了认识数据的属性和类型，为后面的数据预处理做知识准备

1：数据属性 ---是一个数据字段，表示数据对象的一个特征。有以下的属性类型

标称属性的值是一些符号或事物的名称。每个值代表某种类别，编码或状态，因此标称属性又被看做是分类的。标称属性是定性的

二元属性是一种标称属性，只有两个类别的状态：0或1，其中0通常表示该属性不出现，1表示出现。二元属性是定性的

一个二元属性是对称的，如果它的两种状态具有同等价值并且携带相同的权重，则关于哪个结果应该用0或1编码并无偏好

一个二元属性是非对称的，如果其状态的结果不是同样重要的，如艾滋病，为了方便统计，我门将用1表示阳性，0表示阴性。

序列属性是一种属性，其可能的值之间具有有意义的序或秩评定，但是相继值之间的差是未知的。比如说教师职位，有助教，讲师，副教授，教授。这些值具有有意义的先后次序。序列属性是定性的

序列属性也可以通过把数量值的值域划分成有限个有序类别，把数值属性离散化而得到

数值属性是定量的，数值属性可以是区间标度的或比率标度的。区间标度和比率标度很好理解，这里不做过多的记录。

机器学习领域开发的分类算法通常把属性分成离散的或连续的。离散属性具有无限可数个值，可以用或不用整数表示。如果属性不是离散的，则他们是连续的。

2：数据的基本统计描述 ---中心趋势度量，度量数据散布，图形显示

均值：数据的平均值，对应关系数据库系统提供的内置聚集函数average

加权算术均值 / 加权平均：每个值可以与一个权重相关，具体公式为书（2.2）

中位数：是有序数据值的中间值。对于倾斜数据，数据中心的更好度量是中位数。

数据集的中位数：结合后面的习题就可以很好的理解，公式(2.3)

众数：数据集的众数是集合中出现最频繁的值。

中列数：数据集中的最大和最小值的平均值。

极差：数据集中的最大值和最小值的差。

四分位数：把数据分布划分为4个相等的部分，使得每部分表示数据分布的四分之一

四分位极差：IQR=Q3-Q1。第一个和第三个四分位数之间的距离为四分位极差，它给出被数据的中间一半所覆盖的范围

五数概括：由中位数，四分位数Q1和Q3，最小和最大观测值组成，按次序，min，Q1，中位数，Q3，max写出。用盒图来体现五数概括。

需要注意的是：在处理数量适中的观测值时，值得个别的绘出可能的离群点。仅当最高和最低观测值超过四分位数不到1.5*IQR的时候，画出两个最值，否则，当最值在出现四分位数的1.5*IQR之内的最极端的观测值处终止，剩余的情况个别地绘出

方差和标准差：这个都知道，不细说。

一元属性分布的图有三种：分位数图，分位数-分位数图，直方图。二元属性的图为散点图

分位数图：是一种观察单变量数据分布的简单有效方法，书中介绍的很清楚，要是刚开始看不懂的话可以多看两遍。

分位数-分位数图(q-q图)：Q-Q图实际上可以反映出两种分布的走势及区别。书中只是简单的介绍了一下，但是图2.5还是可以很好理解Q-Q图。

直方图：简单点来说就是我们理解的柱状图，把数据分为等宽的连续子域，高度表示我们观测值的商品计数

散点图：是确定两个数值变量之间看上去是否存在联系，模式或趋势的最有效的图形方法之一。

3：度量数据的相似性和相异性

我们提供了两种数据结构：数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象对的相异性值)