Intro
距离(Distance) 常被用来不同样本间的相似度测量(similarity measurement), 随着数据从最初的数值数据,到结构化数据,再到非结构化数据越来越宽泛,距离的种类也越来越丰富。本文总结常用的距离。下文公式中所用数据为
- 设空间中两点
X=(X1,X2,...,Xn)
和
Y=(Y1,Y2,...,Yn)
-
dXY
表示
X
与
Y
之间的距离, 为标量
1. Euclidean Distance 欧式距离
最常用的空间中两点的直线距离。
dXY=∑i=1n(Xi−Yi)2−−−−−−−−√
, 也可以用向量表示
dXY=(X−Y)(X−Y)T−−−−−−−−−−−−−−√
2. Manhattan Distance / CitY Block distance 曼哈顿距离/城市街区距离
在曼哈顿的方块儿街区间穿梭,只能横平竖直地走。
dXY=∑i=1n|Xi−Yi|
3. Mahalanobis Distance 马氏距离
有
m
个样本
X1,X2,...,Xm
, 协方差矩阵记为
S
, 期望记为向量
μ
, 则样本向量
X
到
μ
的 Mahalanobis Distance 定义为
d(X,μ)=(X−μ)TS−1(X−μ)−−−−−−−−−−−−−−−−−√
, 其中任意两个向量的距离定义为
dXY=(X−Y)TS−1(X−Y)−−−−−−−−−−−−−−−−−√
, 若协方差矩阵是单位矩阵(各个样本向量之间独立同分布, 则 Mahalanobis Distance 退化为 Euclidean Distance.
Ref