《数据挖掘导论》Ch3 探索数据

本章涵盖的主题与探测性数据分析(EDA)有许多重叠,本章与EDA一样强调可视化,而不包含聚类分析和异常检测等主题。

目录

 

鸢尾花数据集

汇总统计

频率和众数

百分位数

位置度量:均值和中位数

散布度量:极差和方差

多元汇总统计

汇总数据的其他方法

可视化

可视化的动机

一般概念

表示:将数据映射到图形元素。将信息中的对象、属性、联系映射为可视化的。

安排:项的安排也至关重要。

选择:删除或不突出某些对象和属性。

技术

少量属性的可视化

可视化高维数据

注意事项

OLAP和多维数据分析

多维数据

分析多维数据


鸢尾花数据集

来自加州大学欧文分校(UCI)的机器学习库种得到的鸢尾花(Iris)数据集,包含150种鸢尾花信息,均等地来自3个种类:Setosa、Bersicolour、Virginica。每种花的特征用下面5个属性描述:萼片长度、萼片宽度、花瓣长度、花瓣宽度、类。

 

汇总统计

汇总统计(summary statistics)是量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。

 

频率和众数

 

百分位数

对于有序数据,考虑值集的百分位数(percentile)更有意义。【结合下文的经验分布。】

 

位置度量:均值和中位数

对于连续数据,两个使用最广泛的汇总统计是均值mean和中位数median。

仅当值以对称方式分布时,均值解释为值集的中间是对的,如果值得分布是倾斜得,则中位数是中间的一个更好的指示符。均值对离群值很敏感,对于包含离群值的数据,中位数可以更稳健地提供值集中间地估计。

为了克服传统均值定义的问题,有时使用截断均值(trimmed mean)的概念。指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果即是截断均值。

 

散布度量:极差和方差

连续数据的另一组常用的汇总统计是值集的弥散或散布度量。这种度量表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。

极差(range)=max(x)-min(x).

机关极差标识最大散布,但是如果大部分值都集中在一个较窄的范围内,并且更极端的值的个数相对较少,则可能会引起误解。因此,作为散布的度量,方差(variance)更可取。标准差(standard deviation)是方差的平方根,与x具有相同的单位。

均值可能被离群值扭曲,而方差使用均值计算,因此也对离群值敏感。因此引入了更稳健的估计:绝对平均偏差(absolute average deviation, AAD)、中位数绝对偏差(median absolute deviation, MAD)、四分位数极差(interquartile range,IQR)。

 

多元汇总统计

对于多元数据(包含多个属性的数据),位置度量可以分别计算每个属性的均值或中位数。每个属性的散布可以独立于其他属性。然而具有连续变量的数据,数据的散布更多地用协方差矩阵(covariance matrix) S表示,协方差矩阵地对角线上是属性的方差。

两个属性的协方差是两个属性一起变化并依赖于变量大小的度量。协方差的值接近于0表明两个变量不具有(线性)关系,但是不能仅靠观察协方差的值来确定两个变量之间的关联程度。因为两个属性的相关性直接指出两个属性(线性)相关的程度,对于数据探索,相关性比协方差更可取。【相关性不也是只能探索是否“线性”相关吗?比如皮尔逊相关系数 补充连接https://www.cnblogs.com/bonelee/p/8651719.html

 

汇总数据的其他方法

值集的倾斜度(skewness)度量值对称地分布在均值附近的程度。

如果值的分布是多模态(multimodal),即数据具有多个“肿块”,则很难定量地度量。然而,在许多情况下,理解关于属性值如何分布的更复杂、更微妙的方面,最有效的方法是通过直方图观察这些值。

 

可视化

数据可视化是指以图形或表格的形式显示信息。可视化的目标是形成可视化信息的人工解释和信息的意境模型。

 

可视化的动机

首要动机是人们能够快速吸取大量可视化信息,并发现其中的模式。另一个动机是利用“锁在人脑袋中“的领域知识。让领域专家检查可视化数据可能是发现有意义的模式的最佳方法,快速排除许多无意义的模式,并且直接聚焦到重要模式上。

 

一般概念

 

表示:将数据映射到图形元素。将信息中的对象、属性、联系映射为可视化的。

对象通常用3种表示方法。1.如果只考虑对象的单个分类属性,则通常根据该属性的值将对象聚成类,并且把这些类作为表的项或屏幕的区域显示(例如交叉表和条形统计图)。2. 如果对象具有多个属性,则可以将对象显示为表的一行(或列)。或显示为图的一条线。最后,对象常常解释为二维或三维空间中的点,其中点可能用几何图形表示,如圆圈或十字叉。

属性的表示取决于属性的类型:标称、序数还是连续的(区间或比率)。叙述的和连续的属性可以映射成连续的、有序的图形特征,如在x,y或z轴上的位置,亮度,颜色或尺寸(直径、宽度或高度等)。对于分类属性,由于它的值是无需的,因此在使用具有与其相关的固有序的图形特征(颜色、位置等)时,需要小心。

关系,通过图形元素表示的或者显式、或者隐式。对于图形数据,通常使用标准的图形表示——点和点间的连线。

可视化的主要难点是选择一种技术,让关注的联系易于观察。

 

安排:项的安排也至关重要。

 

选择:删除或不突出某些对象和属性。

如果有许多的属性和许多的对象,可视化所有则导致显示过于拥挤和复杂。处理很多属性的常用方法是使用属性子集(通常是两个属性)。可以使用维归约技术。

 

技术

尽管可视化技术具有专门性和特殊性,但是仍有一般性方法对可视化技术进行分类,基于所设计的属性个数、数据是否具有某种特殊性质、应用类型分类。

  1. 少量属性的可视化

茎叶图(stem and leaf plot)可以用来观测以为整型或连续数据的分布,是一种类型的直方图。

直方图(histogram)将可能的值分散到箱中,并显示落入每个项中的对象数,显示属性值的分布。有了每个箱的计数,就可以构造条形图(bar plot),每个箱用一个条形表示。直方图有一些变形。相对频率直方图(relative frequency histogram)用相对频率取代技术。另一种常见的变形时Pareto直方图,专门针对无序的分类数据。

二维直方图(2-D histogram)将每个属性划分成区间,而两个区间集定义值的二维长方体。

盒装图(boxplot)另一种显示一维数值属性值分布的方法。

饼图(pie chart)类似于直方图,但通常用于具有相对较少的值的分类属性。

百分位数图和经验累计分布函数。一种更定量地显示数据分布的图时经验累积分布函数图。对于统计分布的每个值,一个累计分布函数(cumulative distribution function, CDF)显示点小于该值的概率。对于每个观测值,一个经验累积分布函数(empirical cumulative distribution function, ECDF )显示小于该值的点的百分比。经验累积分布函数是一个阶梯函数。

散布图 。散布图有两个主要用途:1,图形化地显示两个属性之间的关系,例如判定是否线性关系。2、 当类标号给出时,可以使用散布图考察两个属性将类分剋的程度。

扩展的二维和三维图。

  1. 可视化时间空间数据

等高线图

曲面图

矢量场图

低维切片。例如把每个月画一个图。

动画。

 

可视化高维数据

矩阵(我印象里之前是叫热点图 heatmap)。在对数据矩阵可视化是,有一些重要的实用性考虑:如果类标号一直,则重新排列数据矩阵的次序,使得某个类的所有对象聚在一起。例如这可以很容易地检查某个类的所有对象是否在某些属性上具有相似的属性值。

平行坐标系 每个属性一个坐标轴,平行坐标系的不同坐标轴是平行的。缺点之一是模式的检测可能取决于坐标轴的序。

星形坐标(star coordinates)对每个属性使用几个坐标轴,从中心点向四周辐射,均匀散开。

 

注意事项

尽管一下指南颇具智慧,但也不能盲目遵循,只能永远不能取代对手头问题的深思熟虑。

 

OLAP和多维数据分析

用多维数组表示鸢尾花数据。

多维数据

事实表。用多维数组表示数据需要两个步骤:维的识别和分析所关注的属性的识别。

分析多维数据

数据立方体:计算聚焦量

维归约和转轴。

切片和切块

上卷和下钻

发布了79 篇原创文章 · 获赞 119 · 访问量 53万+

猜你喜欢

转载自blog.csdn.net/dujiahei/article/details/102517633
今日推荐