【Data】常用的距离度量(Distances)

Intro

距离(Distance) 常被用来不同样本间的相似度测量(similarity measurement), 随着数据从最初的数值数据,到结构化数据,再到非结构化数据越来越宽泛,距离的种类也越来越丰富。本文总结常用的距离。下文公式中所用数据为

  • 设空间中两点 X = ( X 1 , X 2 , . . . , X n ) Y = ( Y 1 , Y 2 , . . . , Y n )
  • d X Y 表示 X Y 之间的距离, 为标量

1. Euclidean Distance 欧式距离

最常用的空间中两点的直线距离。

d X Y = i = 1 n ( X i Y i ) 2
, 也可以用向量表示
d X Y = ( X Y ) ( X Y ) T

2. Manhattan Distance / CitY Block distance 曼哈顿距离/城市街区距离

在曼哈顿的方块儿街区间穿梭,只能横平竖直地走。

d X Y = i = 1 n | X i Y i |

3. Mahalanobis Distance 马氏距离

m 个样本 X 1 , X 2 , . . . , X m , 协方差矩阵记为 S , 期望记为向量 μ , 则样本向量 X μ 的 Mahalanobis Distance 定义为

d ( X , μ ) = ( X μ ) T S 1 ( X μ )
, 其中任意两个向量的距离定义为
d X Y = ( X Y ) T S 1 ( X Y )
, 若协方差矩阵是单位矩阵(各个样本向量之间独立同分布, 则 Mahalanobis Distance 退化为 Euclidean Distance.


Ref

猜你喜欢

转载自blog.csdn.net/baishuo8/article/details/81982423