均值可能被离群值扭曲，而方差使用均值计算，因此也对离群值敏感。因此引入了更稳健的估计：绝对平均偏差（absolute average deviation, AAD）、中位数绝对偏差（median absolute deviation, MAD）、四分位数极差（interquartile range，IQR）。

多元汇总统计

对于多元数据（包含多个属性的数据），位置度量可以分别计算每个属性的均值或中位数。每个属性的散布可以独立于其他属性。然而具有连续变量的数据，数据的散布更多地用协方差矩阵(covariance matrix) S表示，协方差矩阵地对角线上是属性的方差。

两个属性的协方差是两个属性一起变化并依赖于变量大小的度量。协方差的值接近于0表明两个变量不具有（线性）关系，但是不能仅靠观察协方差的值来确定两个变量之间的关联程度。因为两个属性的相关性直接指出两个属性（线性）相关的程度，对于数据探索，相关性比协方差更可取。【~~相关性不也是只能探索是否“线性”相关吗？比如皮尔逊相关系数~~ 补充连接https://www.cnblogs.com/bonelee/p/8651719.html】

汇总数据的其他方法

值集的倾斜度（skewness）度量值对称地分布在均值附近的程度。

如果值的分布是多模态（multimodal），即数据具有多个“肿块”，则很难定量地度量。然而，在许多情况下，理解关于属性值如何分布的更复杂、更微妙的方面，最有效的方法是通过直方图观察这些值。

可视化

数据可视化是指以图形或表格的形式显示信息。可视化的目标是形成可视化信息的人工解释和信息的意境模型。

可视化的动机

首要动机是人们能够快速吸取大量可视化信息，并发现其中的模式。另一个动机是利用“锁在人脑袋中“的领域知识。让领域专家检查可视化数据可能是发现有意义的模式的最佳方法，快速排除许多无意义的模式，并且直接聚焦到重要模式上。

一般概念

表示：将数据映射到图形元素。将信息中的对象、属性、联系映射为可视化的。

对象通常用3种表示方法。1.如果只考虑对象的单个分类属性，则通常根据该属性的值将对象聚成类，并且把这些类作为表的项或屏幕的区域显示（例如交叉表和条形统计图）。2. 如果对象具有多个属性，则可以将对象显示为表的一行（或列）。或显示为图的一条线。最后，对象常常解释为二维或三维空间中的点，其中点可能用几何图形表示，如圆圈或十字叉。

属性的表示取决于属性的类型：标称、序数还是连续的（区间或比率）。叙述的和连续的属性可以映射成连续的、有序的图形特征，如在x，y或z轴上的位置，亮度，颜色或尺寸（直径、宽度或高度等）。对于分类属性，由于它的值是无需的，因此在使用具有与其相关的固有序的图形特征（颜色、位置等）时，需要小心。

关系，通过图形元素表示的或者显式、或者隐式。对于图形数据，通常使用标准的图形表示——点和点间的连线。

可视化的主要难点是选择一种技术，让关注的联系易于观察。

安排：项的安排也至关重要。

选择：删除或不突出某些对象和属性。

如果有许多的属性和许多的对象，可视化所有则导致显示过于拥挤和复杂。处理很多属性的常用方法是使用属性子集（通常是两个属性）。可以使用维归约技术。

技术

尽管可视化技术具有专门性和特殊性，但是仍有一般性方法对可视化技术进行分类，基于所设计的属性个数、数据是否具有某种特殊性质、应用类型分类。

少量属性的可视化

茎叶图（stem and leaf plot）可以用来观测以为整型或连续数据的分布，是一种类型的直方图。

直方图（histogram）将可能的值分散到箱中，并显示落入每个项中的对象数，显示属性值的分布。有了每个箱的计数，就可以构造条形图（bar plot），每个箱用一个条形表示。直方图有一些变形。相对频率直方图（relative frequency histogram）用相对频率取代技术。另一种常见的变形时Pareto直方图，专门针对无序的分类数据。

二维直方图（2-D histogram）将每个属性划分成区间，而两个区间集定义值的二维长方体。

盒装图（boxplot）另一种显示一维数值属性值分布的方法。

饼图（pie chart）类似于直方图，但通常用于具有相对较少的值的分类属性。

百分位数图和经验累计分布函数。一种更定量地显示数据分布的图时经验累积分布函数图。对于统计分布的每个值，一个累计分布函数（cumulative distribution function, CDF）显示点小于该值的概率。对于每个观测值，一个经验累积分布函数（empirical cumulative distribution function, ECDF ）显示小于该值的点的百分比。经验累积分布函数是一个阶梯函数。