距离度量准则(转载)

进行聚类分析首先要建立在各个样品(或变量)之间“距离”的精确度量的基础

根据变量类型的不同,“距离”的度量方式也不相同,下面分别叙述:

1. 针对连续变量的距离测度

欧氏距离(Euclidean distance): 两个体p个变量值之差平方和的平方根
在这里插入图片描述
在这里插入图片描述

2. 针对计数变量的距离测度

所谓计数变量,是指个体在某个分类变量上的频数。针对计数变量的距离测度方法主要有卡方距离和Phi方距离。
在这里插入图片描述

3. 针对二值变量的距离测度

如果个体的k个变量都是二值变量,则个体之间的距离测度将基于一个如下表所示的2*2的列联表。该表是根据原始数据转换而来的两个体取值的交叉列联表。表中,

a+b+c+d等于变量的总个数,a为两个体取值都为1的变量个数,b为个体x取值为0, 而个体y取值为1的变量个数,c为个体 x取值为1而个体y取值为0的变量个数,d为两

个体取值都是0的变量个数。显然,a+d的比重描述了两个体之间的相似程度,而b+c的

比重反映了两个体之间的差异程度。
在这里插入图片描述

【1】http://blog.sina.com.cn/s/blog_670445240102v05m.html

猜你喜欢

转载自blog.csdn.net/WillWinston/article/details/85010918