距离度量方法

1.曼哈顿距离(Manhattan Distance)

  定义:在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

  想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾 驶距离就是这个“曼哈顿距离”,也称为城市街区距离(City Block distance)。

2.欧式距离(Euclidean Distance)

  定义:欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。

3.切比雪夫距离(Chebyshev distance)

  定义:切比雪夫距离是向量空间中的一种度量,二个点之间的距离定义是其各坐标数值差绝对值的最大值。

4.闵可夫斯基距离(Minkowski Distance)

  其中p是一个变参数。
  当p=1时,就是曼哈顿距离
  当p=2时,就是欧氏距离
  当p→∞时,就是切比雪夫距离

  闵可夫斯基距离比较直观,但是它与数据的分布无关,具有一定的局限性,如果 x 方向的幅值远远大于 y 方向的值,这个距离公式就
会过度放大 x 维度的作用。所以,在计算距离之前,我们可能还需要对数据进行 z-transform 处理,即减去均值,除以标准差(即 标准化欧式
距离)。
  这种方法在假设数据各个维度不相关的情况下利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如:身高较高的
信息很有可能会带来体重较重的信息,因为两者是有关联的),这时候就要用到马氏距离(Mahalanobis distance)了。

5. 标准化欧式距离(Standardized Euclidean distance)

  思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,X的“标准化变量”表示为:

  则标准化后的欧式距离公式为:

  如果将方差的倒数看成一个权重,也可称之为加权欧氏距离(Weighted Euclidean distance)

6.马氏距离(Mahalanobis distance)

7.余弦相似度(Cosine Similarity)

8.汉明距离(Hamming Distance)

  两个等长字符串s1与s2的汉明距离为:将其中一个变为另外一个所需要作的最小字符替换次数

9.杰卡德距离(Jaccard Distance)

10.皮尔逊系数(Pearson Correlation Coefficient)

 

猜你喜欢

转载自www.cnblogs.com/Zhouwl/p/9482874.html