数据挖掘导论学习笔记：第三章探索数据

3.1鸢尾花数据集

这个数据集包含150种鸢尾花信息，每50种取自三个鸢尾花种之一：Setosa、Versicolour、Virginica。
属性描述：

萼片长度（cm）
萼片宽度（cm）
花瓣长度（cm）
花瓣宽度（cm）
类（S、Ve、Vi）

3.2汇总统计(Summary statistics)

汇总统计指的是用单个数或数的小集合捕获很大的值集的各种特征

3.2.1频率和众数

给定一个在 ${\{v_1,\cdots,v_i,\cdots,v_k\}}$ 上取值的分类属性 $x$ 和m个对象单位集合,值 $v_i$ 的频率定义为：
$frenquency(v_i)=\frac{具有属性值v_i的对象数}{m}$
值得一提的是，如果使用唯一的值表示遗漏值，则该值常常表示为众数

3.2.2百分位数

对于有序数据，考虑百分位数(percentile)更有意义。具体的定义为：
给定一个有序的或连续的属性 $x$ 和0与100之间的数 $p$ ，第 $p$ 个百分位数 $x_p$ 是一个 $x$ 值，使得 $x$ 的 $p\%$ 的观测值小于 $x_p$ .

3.2.3位置度量：均值和中位数

均值和中值得知识不再赘述。为了克服传统均值定义的问题引入阶段均值的概念（trimmed mean）：指定百分位数p，丢弃高端和低端的 $(p/2)\%$ 的数据，然后用常规方法计算均值。中位数是p=100%时的阶段均值。标准均值对应p=0%，阶段均值可以看做二者的中间状态

3.2.4散步度量：极差和方差

$range(x)=max(x)-min(x)$
$variance(x)=s_x^2=\frac{1}{m-1}\sum _{i=1}^m(x_i-\hat{x})^2$
这里面方差比极差更可取，但是对离群值仍旧很敏感。因此这里有三种更为稳健的度量。注：这里的分母是（1-m）

绝对平均偏差(absolute average deviation,AAD)
中位数绝对偏差(median absolute deviation,MAD)
四分位数极差(interquartile range,IQR)
$AAD(x)=\frac{1}{m}\sum_{i=1}^m \vert x_i- \bar{x}\vert$ $MAD(x)=median(\{|x_i-\bar{x}|, \cdots ,|x_m-\bar{x}|\})$ $IQR(x)=x_{75\%}-x_{25\%}$

3.2.5多元汇总统计

对于多元数据（包含多个属性的数据）: $\bar{x}=(\bar{x_1}.\cdots,\bar{x_n})$
每个属性的散布变化可能具有依赖关系。两个属性一起变化并依赖变量程度的大小，我们用协方差表示。
$s_{ij}=coverance(x_i,x_j)\\ \quad \qquad \qquad \qquad =\frac {1}{m-1}\sum_{k=1}^{m}(x_{ki}-\bar{x}_i)(x_{kj}-\bar{x}_j)$
其中 $x_{kj}$ 表示第k个对象的第i个值。协方差矩阵我们用 $S$ 表示。
而相关矩阵 $R$ 比协方差矩阵更可取
$r_{ij}=\frac{s_{ij}}{s_i s_j}$

3.3可视化

3.32一般概念

1.表示：将数据映射到图形元素

对于对象：

单个分类	多个属性
聚类并把类表示为表的项或屏幕的区域	将对象表示为表的行列或图的一条线

对于属性：

序数、区间、比率	分类	标称
同样可以映射成有序、连续的图形特征	每个类可以映射到不同位置	用来表示序数值的图形元素通常有序，但标称值没有序

任意给定的数据集中，有许多蕴含的联系，因此可视化的主要难点是选择一种技术，让关注的联系易于观察。

2.安排

对于好的可视化来说，正确选择对象和属性的可视化是基本的要求。在可视化现实中，项的安排也至关重要。**改变对象的排列顺序和属性的顺序可以让形势更加明朗。**除此之外还有别的安排形式。

3.选择

没有很好的办法去对多个属性或多对象进行可视化分析，一方面，没有针对多个属性的多维度的表示方法，另一方面对象过多会导致拥挤。
应对办法是，处理多属性最常用的是使用属性子集，如果维度不太高，则可以构造双变量图矩阵。或者让可视化程序自动显示一系列二维图。这涉及到维归约技术。
当多个对象或者数据极差很大时，我们可以通过放大数据的特定区域或者选取数据点样本来解决问题。

3.3.3技术

1.少量数据的可视化

茎叶图 可以用来观测一维整型或连续数据的分布。通过垂直绘制茎，水平绘制叶，可以提供数据分布的可视表示。

4：2334
5：001244445
6：22223349
7：223

直方图 茎叶图是一种特殊的直方图（histogram)，将值域分箱，并计算落入各个箱内的对象个数，绘制图像。
直方图的一些变形：

相对频率直方图：相对频率取代计数，只是一种y轴尺度的变化，形状并不改变。
Pareto直方图：计数从左到右递减
二维直方图：顾名思义

盒状图 （box plot）显示一维属性值分布的方法
点击此处见详解
饼图饼图使用相对面积显示不同值的相对频率，这在技术性出版物不适用。
百分位数图和经验累积分布函数
累积分布函数(cumulative distribution function , CDF):点小于该值的概率
经验累积分布图(eprical cumulative distribution function , ECDF):小于该值点的百分比
散布图

用途

图形化显示两个属性之间的关系
当类标号给出时，考察两个属性将类分开的程度

散布图矩阵属性对的散布图以表格的形式安排在一起，同时考察多个散布图
三维散布图三个属性构成的散布图
扩展可以将散布图添加一些附加属性，比如阴影、点的大小、形状，来表示额外的信息

可视化的时间空间数据

等高线图 (contour plot)对于某些三维数据，两个属性指定平面上的位置，第三个属性具有连续值.可以用等高线图可视化分析。
曲面图 用来描述数学函数和变化相对光滑的物理曲面。
矢量场图 （vector plot）某些数据中，一个特性可能同时具有值和方向，比如考虑物质流或随位置改变的密度。
低维切片 时间空间数据集可能有四个维度，不易显示。因此可以显示一组图，来显示变化。
动画相继的二维切片。更有吸引力。但是不如静态的，静态的图可以按照任意次序、任意多时间来研究信息。

可视化高维数据

数据矩阵 对数据矩阵进行可视化时，如果类标号已知，则重新排列矩阵的次序，使某个类的所有对象聚在一起，如果不同属性的值域不同可以进行标准化处理，使得均值为0，标准差为1,这防止具有最大量值的属性在视觉上左右图形
寻找对象集的邻近矩阵图也是很有用的，类标号已知时，最好通过对相似矩阵的行列进行排序，以便将某个类的所有对象聚在一起，可以评估每个类的内聚性和与其他类的分离性，
如果类标号未知，则需要简单聚类。

平行坐标系 （parallel coordinates)每个属性都被看做一个坐标轴，每个对象用线表示而不是用点表示。代表不同类的对象的线由其浓淡和类型区分。这可以帮助我们观察不同类的分离性和内聚性。缺点是，属性的排序不同，画出来的图像也不一样，可能会造成混乱，需要多次尝试。
星形坐标和Chernoff脸 使对象每个属性映射到图示符的一个特征，使得属性的值决定特征的准确性质，更加直观。
星形坐标（star corrdinates）：该技术对每个属性使用一个坐标轴，这些坐标轴从一个中心点向四周辐射均匀散开。所有的属性值都映射到[0,1]区间。映射方法如下：
将每个属性值映射为一个分数，表示它在该属性的最大值和最小值之间的距离，反映到坐标轴上的一点，然后将各个点连线成一个多边形，这个多边形表示为对象。
Chernoff face：每个属性和一个脸部特征相关，每张脸都是一个对象

3.3.5注意事项

ACCENT原则
图形的优点原则 P79

3.4 OLAP和多维数据分析

3.4.1多维数组

3.4.2 多维数据：一般情况

用多维数组表示数据

维的识别
分析所关注的属性的识别

维是分类属性，或者由连续属性转换而来。属性的个数就是维的大小。属性值的每个组合定义了多维数组的一个单元。数据集合中每个对象落入一个单元中。每个单元的内容代表我们分析时感兴趣的目标量。
下面总结用表形式表示的数据集创建多维数据表示的过程：
首先确定用作维的分类属性以及用作分析目标的定量属性。然后将表的每一行映射到多维数组的一个单元，单元的下标由被选做的维的属性的值指定，而单元的值是目标属性的值。

3.4.3分析多维数据

数据立方体：计算聚集量

主要动机就是以多种方式聚集数据。如果对某个维进行求和就可以得到立方体的投影，这就是统计学上的交叉表，可以用python绘制。数据立方体是交叉表的推广

一些概念

维归约：减少维度
转轴（picoting）：在除了两个维之外的所有维上聚集
切片：对若干个维指定值，选取一组单元
切块：指定属性值区间，选取单元子集
上卷（roll up）：在一个维度内向上聚集(由月到年)
下钻（drill down）：在一个维度内向下聚集

李烟云

发布了2 篇原创文章 · 获赞 5 · 访问量 123

私信关注