3.1鸢尾花数据集
这个数据集包含150种鸢尾花信息,每50种取自三个鸢尾花种之一:Setosa、Versicolour、Virginica。
属性描述:
- 萼片长度(cm)
- 萼片宽度(cm)
- 花瓣长度(cm)
- 花瓣宽度(cm)
- 类(S、Ve、Vi)
3.2汇总统计(Summary statistics)
汇总统计指的是用单个数或数的小集合捕获很大的值集的各种特征
3.2.1频率和众数
给定一个在
上取值的分类属性
和m个对象单位集合,值
的频率定义为:
值得一提的是,如果使用唯一的值表示遗漏值,则该值常常表示为众数
3.2.2百分位数
对于有序数据,考虑百分位数(percentile)更有意义。具体的定义为:
给定一个有序的或连续的属性
和0与100之间的数
,第
个百分位数
是一个
值,使得
的
的观测值小于
.
3.2.3位置度量:均值和中位数
均值和中值得知识不再赘述。为了克服传统均值定义的问题引入阶段均值的概念(trimmed mean):指定百分位数p,丢弃高端和低端的 的数据,然后用常规方法计算均值。中位数是p=100%时的阶段均值。标准均值对应p=0%,阶段均值可以看做二者的中间状态
3.2.4散步度量:极差和方差
这里面方差比极差更可取,但是对离群值仍旧很敏感。因此这里有三种更为稳健的度量。注:这里的分母是(1-m)
- 绝对平均偏差(absolute average deviation,AAD)
- 中位数绝对偏差(median absolute deviation,MAD)
- 四分位数极差(interquartile range,IQR)
3.2.5多元汇总统计
对于多元数据(包含多个属性的数据):
每个属性的散布变化可能具有依赖关系。两个属性一起变化并依赖变量程度的大小,我们用协方差表示。
其中
表示第k个对象的第i个值。协方差矩阵我们用
表示。
而相关矩阵
比协方差矩阵更可取
3.3可视化
3.32一般概念
1.表示:将数据映射到图形元素
对于对象:
单个分类 | 多个属性 |
---|---|
聚类并把类表示为表的项或屏幕的区域 | 将对象表示为表的行列或图的一条线 |
对于属性:
序数、区间、比率 | 分类 | 标称 |
---|---|---|
同样可以映射成有序、连续的图形特征 | 每个类可以映射到不同位置 | 用来表示序数值的图形元素通常有序,但标称值没有序 |
任意给定的数据集中,有许多蕴含的联系,因此可视化的主要难点是选择一种技术,让关注的联系易于观察。
2.安排
对于好的可视化来说,正确选择对象和属性的可视化是基本的要求。在可视化现实中,项的安排也至关重要。**改变对象的排列顺序和属性的顺序可以让形势更加明朗。**除此之外还有别的安排形式。
3.选择
没有很好的办法去对多个属性或多对象进行可视化分析,一方面,没有针对多个属性的多维度的表示方法,另一方面对象过多会导致拥挤。
应对办法是,处理多属性最常用的是使用属性子集,如果维度不太高,则可以构造双变量图矩阵。或者让可视化程序自动显示一系列二维图。这涉及到维归约技术。
当多个对象或者数据极差很大时,我们可以通过放大数据的特定区域或者选取数据点样本来解决问题。
3.3.3技术
1.少量数据的可视化
茎叶图 可以用来观测一维整型或连续数据的分布。通过垂直绘制茎,水平绘制叶,可以提供数据分布的可视表示。
4:2334
5:001244445
6:22223349
7:223
直方图 茎叶图是一种特殊的直方图(histogram),将值域分箱,并计算落入各个箱内的对象个数,绘制图像。
直方图的一些变形:
- 相对频率直方图:相对频率取代计数,只是一种y轴尺度的变化,形状并不改变。
- Pareto直方图:计数从左到右递减
- 二维直方图:顾名思义
盒状图 (box plot)显示一维属性值分布的方法
点击此处见详解
饼图 饼图使用相对面积显示不同值的相对频率,这在技术性出版物不适用。
百分位数图和经验累积分布函数
累积分布函数(cumulative distribution function , CDF):点小于该值的概率
经验累积分布图(eprical cumulative distribution function , ECDF):小于该值点的百分比
散布图
用途
- 图形化显示两个属性之间的关系
- 当类标号给出时,考察两个属性将类分开的程度
散布图矩阵属性对的散布图以表格的形式安排在一起,同时考察多个散布图
三维散布图三个属性构成的散布图
扩展可以将散布图添加一些附加属性,比如阴影、点的大小、形状,来表示额外的信息
可视化的时间空间数据
等高线图 (contour plot)对于某些三维数据,两个属性指定平面上的位置,第三个属性具有连续值.可以用等高线图可视化分析。
曲面图 用来描述数学函数和变化相对光滑的物理曲面。
矢量场图 (vector plot)某些数据中 ,一个特性可能同时具有值和方向,比如考虑物质流或随位置改变的密度。
低维切片 时间空间数据集可能有四个维度,不易显示。因此可以显示一组图,来显示变化。
动画 相继的二维切片。更有吸引力。但是不如静态的,静态的图可以按照任意次序、任意多时间来研究信息。
可视化高维数据
数据矩阵 对数据矩阵进行可视化时,如果类标号已知,则重新排列矩阵的次序,使某个类的所有对象聚在一起,如果不同属性的值域不同可以进行标准化处理,使得均值为0,标准差为1,这防止具有最大量值的属性在视觉上左右图形
寻找对象集的邻近矩阵图也是很有用的,类标号已知时,最好通过对相似矩阵的行列进行排序,以便将某个类的所有对象聚在一起,可以评估每个类的内聚性和与其他类的分离性,
如果类标号未知,则需要简单聚类。
平行坐标系 (parallel coordinates)每个属性都被看做一个坐标轴,每个对象用线表示而不是用点表示。代表不同类的对象的线由其浓淡和类型区分。这可以帮助我们观察不同类的分离性和内聚性。缺点是,属性的排序不同,画出来的图像也不一样,可能会造成混乱,需要多次尝试。
星形坐标和Chernoff脸 使对象每个属性映射到图示符的一个特征,使得属性的值决定特征的准确性质,更加直观。
星形坐标(star corrdinates):该技术对每个属性使用一个坐标轴,这些坐标轴从一个中心点向四周辐射均匀散开。所有的属性值都映射到[0,1]区间。映射方法如下:
将每个属性值映射为一个分数,表示它在该属性的最大值和最小值之间的距离,反映到坐标轴上的一点,然后将各个点连线成一个多边形,这个多边形表示为对象。
Chernoff face:每个属性和一个脸部特征相关,每张脸都是一个对象
3.3.5注意事项
ACCENT原则
图形的优点原则 P79
3.4 OLAP和多维数据分析
3.4.1多维数组
3.4.2 多维数据:一般情况
用多维数组表示数据
- 维的识别
- 分析所关注的属性的识别
维是分类属性,或者由连续属性转换而来。属性的个数就是维的大小。属性值的每个组合定义了多维数组的一个单元。数据集合中每个对象落入一个单元中。每个单元的内容代表我们分析时感兴趣的目标量。
下面总结用表形式表示的数据集创建多维数据表示的过程:
首先确定用作维的分类属性以及用作分析目标的定量属性。然后将表的每一行映射到多维数组的一个单元,单元的下标由被选做的维的属性的值指定,而单元的值是目标属性的值。
3.4.3分析多维数据
数据立方体:计算聚集量
主要动机就是以多种方式聚集数据。如果对某个维进行求和就可以得到立方体的投影,这就是统计学上的交叉表,可以用python绘制。数据立方体是交叉表的推广
一些概念
维归约:减少维度
转轴(picoting):在除了两个维之外的所有维上聚集
切片:对若干个维指定值,选取一组单元
切块:指定属性值区间,选取单元子集
上卷(roll up):在一个维度内向上聚集(由月到年)
下钻(drill down):在一个维度内向下聚集