常用的相似度计算方法原理及实现

在数据分析和数据挖掘以及搜索引擎中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。常见的比如数据分析中比如相关分析，数据挖掘中的分类聚类（K-Means等）算法，搜索引擎进行物品推荐时。
相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离，如果距离小，那么相似度大；如果距离大，那么相似度小。比如两种水果，将从颜色，大小，维生素含量等特征进行比较相似性。
问题定义：有两个对象X,Y,都包含N维特征，X=(x1,x2,x3,………,xn),Y=(y1,y2,y3,………,yn),计算X和Y的相似性。常用的有五种方法，如下。

1、欧几里得距离（Eucledian Distance）

欧氏距离是最常用的距离计算公式，衡量的是多维空间中各个点之间的绝对距离，当数据很稠密并且连续时，这是一种很好的计算方式。

因为计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能使结果失效。

代码：
这里写图片描述

2、曼哈顿距离（Manhattan Distance）

Manhattan distance = |x1 – x2| + |y1 – y2|，p1 at (x1, y1) and p2 at (x2, y2).

代码：
这里写图片描述

3、明可夫斯基距离（Minkowski distance）

明氏距离是欧氏距离的推广，是对多个距离度量公式的概括性的表述，看看下图

公式：

从公式我们可以看出，

当p1,“明可夫斯基距离”变成“曼哈顿距离”
当p2,“明可夫斯基距离”变成“欧几里得距离”
当p==∞,“明可夫斯基距离”变成“切比雪夫距离”

代码：
这里写图片描述

4、（余弦相似度）Cosine Similarity

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。

代码：
这里写图片描述

5、Jaccard Similarity

Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

对于上面两个对象A和B,我们用Jaccard计算它的相似性，公式如下

首先计算出A和B的交（A ∩ B），以及A和B的并（A ∪ B）:

然后利用公式进行计算:

代码：

这里写图片描述

六、皮尔森相关系数(Pearson Correlation Coefficient)

又称相关相似性，通过Peason相关系数来度量两个用户的相似性。计算时，首先找到两个用户共同评分过的项目集，然后计算这两个向量的相关系数。

公式：

实现汇总：

这里写图片描述

参考资料

1、Implementing the five most popular Similarity Measures in Python
2、相似度方法总结

欧氏距离与余弦相似度
　　欧氏距离是最常见的距离度量，而余弦相似度则是最常见的相似度度量，很多的距离度量和相似度度量都是基于这两者的变形和衍生，所以下面重点比较下两者在衡量个体差异时实现方式和应用环境上的区别。
　　借助三维坐标系来看下欧氏距离和余弦相似度的区别：
在这里插入图片描述
　　从图上可以看出距离度量衡量的是空间各点间的绝对距离，跟各个点所在的位置坐标（即个体特征维度的数值）直接相关；而余弦相似度衡量的是空间向量的夹角，更加的是体现在方向上的差异，而不是位置。如果保持A点的位置不变，B点朝原方向远离坐标轴原点，那么这个时候余弦相似度cosθ是保持不变的，因为夹角不变，而A、B两点的距离显然在发生改变，这就是欧氏距离和余弦相似度的不同之处。

根据欧氏距离和余弦相似度各自的计算方式和衡量特征，分别适用于不同的数据分析模型：欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异；而余弦相似度更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦相似度对绝对数值不敏感）。