1、欧式距离(Euclidean Distance)
2、曼哈顿距离(Manhattan Distance)
不能直接走两点连接的直线,红、蓝、黄距离一样长
3、切比雪夫距离 (Chebyshev Distance)
国际象棋中,国王走一步可以移动到相邻8个方格中的任意一个,如下图。A到B的距离为红色线,需要走4步,和绿色线距离是相同的。
4、闵可夫斯基距离(Minkowski Distance)
闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。
两个n维变量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:
其中p是一个变参数:
-
当p=1时,就是曼哈顿距离;
-
当p=2时,就是欧氏距离;
-
当p→∞时,就是切比雪夫距离,即当某一个值无穷大,可将小的值忽略掉。
根据p的不同,闵氏距离可以表示某一类/种的距离。
闵氏距离的缺点:
(1)将各个分量的量纲(scale),也就是“单位”相同的看待了;
(2)未考虑各个分量的分布(期望,方差等)可能是不同的。
5、标准化欧氏距离 (Standardized EuclideanDistance):
改进:去量纲化
思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。
Sk表示各个维度的标准差
6、余弦距离(Cosine Distance)
- 二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:
- 两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦为:
即:
夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1。