0 写在前面
参考资料:
- 《应用多元统计分析》王学民
本文的距离和相似系数定义是基于两个n维向量x和y。
1 距离
1.1 Minkowski距离(明氏距离)
d(x,y)=[i=1∑n∣xi−yi∣q]q1其中
q≥1,明式距离有以下三种特殊形式:
- 当q=1时,
d(x,y)=∑i=1n∣xi−yi∣,称为绝对值距离或者曼哈顿距离;
- 当q=2时,
d(x,y)=[∑i=1n(xi−yi)2]21,这是欧式距离,是最常用的距离度量方式;
- 当
q=∞时,
d(x,y)=1≤i≤nmax∣xi−yi∣,称为切比雪夫(Chebyshev)距离。
对于异常值,欧氏距离较为敏感,而绝对值距离不太敏感,一般来说,q越大越敏感。
对于标准化,和一般的情况一样,若该变量各个维度的单位不同或相差很大时需要作标准化处理。
1.2 Lance and Williams距离(兰氏距离)
d(x,y)=i=1∑nxi+yi∣xi−yi∣该距离适用于高度偏斜或含异常值的数据。
1.3 马氏距离
d(x,y)=(x−y)TS−1(x−y)
马氏距离考虑了各单位的相关性,但由于需要提前知道协方差矩阵,故不适用于聚类分析。
2 相似系数
相似系数也能度量两个向量之间的距离,通常用相关系数表示,显然相关系数越大,距离越小。另外还有一种相似系数叫夹角余弦,即两个向量夹角的余弦值,公式与标准化后的相关系数公式相同,故不再讲述。相关系数公式如下
rxy={[∑k=1n(xki−xˉi)2][∑k=1n(xkj−xˉj)2]}21∑k=1n(xki−xˉi)(xkj−xˉj)