进行聚类分析首先要建立在各个样品(或变量)之间“距离”的精确度量的基础
根据变量类型的不同,“距离”的度量方式也不相同,下面分别叙述:
1. 针对连续变量的距离测度
欧氏距离(Euclidean distance): 两个体p个变量值之差平方和的平方根
2. 针对计数变量的距离测度
所谓计数变量,是指个体在某个分类变量上的频数。针对计数变量的距离测度方法主要有卡方距离和Phi方距离。
3. 针对二值变量的距离测度
如果个体的k个变量都是二值变量,则个体之间的距离测度将基于一个如下表所示的2*2的列联表。该表是根据原始数据转换而来的两个体取值的交叉列联表。表中,
a+b+c+d等于变量的总个数,a为两个体取值都为1的变量个数,b为个体x取值为0, 而个体y取值为1的变量个数,c为个体 x取值为1而个体y取值为0的变量个数,d为两
个体取值都是0的变量个数。显然,a+d的比重描述了两个体之间的相似程度,而b+c的
比重反映了两个体之间的差异程度。