一、聚类分析

1. 概述

聚类分析（cluster analyses）可作为一种定量方法，从数据分析的角度，给出一个准确、细致的分类工具。

2. 相似性度量

2.1. 样本的相似性度量

1. 重点内容

核心思想：用距离来度量样本点间的相似程度。距离近的样品聚为一类。
在聚类分析中，对于定量变量，常用的是 Minkowski 距离
在 Minkowski 距离中，常用的是欧氏距离，它的主要优点是当坐标轴进行正交旋转时，欧氏距离是保持不变的。因此，如果对原坐标系进行平移和旋转变换，则变换后样本点间的距离和变换前完全相同。
采用 Minkowski 距离时，一定要采用相同量纲的变量。如果变量的量纲不同，测量值变异范围相差悬殊时，建议首先进行数据的标准化处理，然后再计算距离。
在采用 Minkowski 距离时，还应尽可能地避免变量的多重相关性。多重相关性(multicollinearity)所造成的信息重叠，会片面强调某些变量的重要性。
由于 Minkowski 距离的这些缺点，一种改进的距离就是马氏距离，定义如下：

其中x, y为来自p 维总体Z的样本观测值，Σ为Z的协方差矩阵，实际中Σ往往是不知道的，常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的，故不受量纲的影响。
此外，还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。

2. 示例

下图是数据的一般格式
在这里插入图片描述
则样品与样品之间的常用距离（样品i与样品j）

示例计算：

指标与指标之间的常用“距离”(指标i与指标j)

示例计算

2.2. 类与类间的相似性度量

1. 度量方法

由一个样品组成的类是最基本的类。如果每一类都由一个样品组成，那么样品间的距离就是类间距离。
如果某一类包含不止一个样品，那么就要确定类间距离，类间距离是基于样品间距离定义的。如果有两个样本类G₁和G₂，我们可以用下面的一系列方法度量它们间的距离：
1. 最短距离法（nearest neighbor or single linkage method）
  
  它的直观意义为两个类中最近两点间的距离。
2. 最长距离法（farthest neighbor or complete linkage method）
  
  它的直观意义为两个类中最远两点间的距离。
3. 重心法（centroid method）
  
  其中 $\overline{x}$ ， $\overline{y}$ 分别为G
4. 类平均法（group average method）
  
  它等于G₁ ,G₂中两两样本点距离的平均，式中n₁ , n₂ 分别为G₁ ,G₂中的样本点个数。
5. 离差平方和法（sum of squares method）
  
  事实上，若 G₁ ,G₂内部点与点距离很小，则它们能很好地各自聚为一类，并且这两类又能够充分分离（即D₁₂很大），这时必然有D = D₁₂ − D₁ − D₂ 很大。因此，按定义可以认为，两类G₁ ,G₂之间的距离很大。

2. 更形象化地表达

在这里插入图片描述

2.2. 系统聚类法

1. 概述

系统聚类法是聚类分析方法中常用的一种方法。它的优点在于可以指出由粗到细的多种分类情况，典型的系统聚类结果可由一个聚类图展示出来。
在这里插入图片描述
如何才能生成这样的聚类图呢？，其步骤如下：

显而易见，这种系统归类过程与计算类和类之间的距离有关，采用不同的距离定义，有可能得出不同的聚类结果。