向量间的距离度量方法

0 写在前面

参考资料:

  1. 《应用多元统计分析》王学民

本文的距离和相似系数定义是基于两个n维向量x和y。

1 距离

1.1 Minkowski距离(明氏距离)

d ( x , y ) = [ i = 1 n x i y i q ] 1 q d(x,y)=[\sum_{i=1}^n|x_i-y_i|^q]^{\frac{1}{q}} 其中 q 1 q\ge1 ,明式距离有以下三种特殊形式:

  1. 当q=1时, d ( x , y ) = i = 1 n x i y i d(x,y)=\sum_{i=1}^n|x_i-y_i| ,称为绝对值距离或者曼哈顿距离
  2. 当q=2时, d ( x , y ) = [ i = 1 n ( x i y i ) 2 ] 1 2 d(x,y)=[\sum_{i=1}^n(x_i-y_i)^2]^\frac{1}{2} ,这是欧式距离,是最常用的距离度量方式;
  3. q = q=\infty 时, d ( x , y ) = max 1 i n x i y i \displaystyle d(x,y)=\max_{1\le i\le n}|x_i-y_i| ,称为切比雪夫(Chebyshev)距离

对于异常值,欧氏距离较为敏感,而绝对值距离不太敏感,一般来说,q越大越敏感。
对于标准化,和一般的情况一样,若该变量各个维度的单位不同或相差很大时需要作标准化处理。

1.2 Lance and Williams距离(兰氏距离)

d ( x , y ) = i = 1 n x i y i x i + y i d(x,y)=\sum_{i=1}^n\frac{|x_i-y_i|}{x_i+y_i} 该距离适用于高度偏斜或含异常值的数据。

1.3 马氏距离

d ( x , y ) = ( x y ) T S 1 ( x y ) d(x,y)=\sqrt{(x-y)^TS^{-1}(x-y)} 马氏距离考虑了各单位的相关性,但由于需要提前知道协方差矩阵,故不适用于聚类分析。

2 相似系数

相似系数也能度量两个向量之间的距离,通常用相关系数表示,显然相关系数越大,距离越小。另外还有一种相似系数叫夹角余弦,即两个向量夹角的余弦值,公式与标准化后的相关系数公式相同,故不再讲述。相关系数公式如下
r x y = k = 1 n ( x k i x ˉ i ) ( x k j x ˉ j ) { [ k = 1 n ( x k i x ˉ i ) 2 ] [ k = 1 n ( x k j x ˉ j ) 2 ] } 1 2 r_{xy}=\frac{\sum_{k=1}^n(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)}{\{[\sum_{k=1}^n(x_{ki}-\bar x_i)^2][\sum_{k=1}^n(x_{kj}-\bar x_j)^2]\}^{\frac{1}{2}}}

发布了60 篇原创文章 · 获赞 32 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_42297855/article/details/102904024