用户推荐算法 pearson(皮尔逊)相似度

距离度量公式有:欧几里得距离,明可夫斯基距离,曼哈顿距离,切比雪夫距离,马氏距离等;相似度的度量公式有:余弦相似度,皮尔森相关系数,Jaccard相似系数。 补充:欧几里得距离度量会受特征不同单位刻度的影响,所以一般需要先进行标准化处理。

pearson

当两个变量的方差都不为零时,相关系数才有意义,相关系数的取值范围为[-1,1]

当相关系数为1时,成为完全正相关;当相关系数为-1时,成为完全负相关;相关系数的绝对值越大,相关性越强;相关系数越接近于0,相关度越弱。

皮尔逊相关的约束条件:

1 两个变量间有线性关系 
2 变量是连续变量 
3 变量均符合正态分布,且二元分布也符合正态分布 
4 两变量独立 
在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性.

适用范围

适用于A的评价普遍高于B的评价

欧几里得距离(Euclidean Distance)

欧氏距离

注意事项:

a.因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。

b.欧几里得距离是数据上的直观体现,看似简单,但在处理一些受主观影响很大的评分数据时,效果则不太明显;比如,U1对Item1,Item2 分别给出了2分,4分的评价;U2 则给出了4分,8分的评分。通过分数可以大概看出,两位用户褒Item2 ,贬Item1,也许是性格问题,U1 打分更保守点,评分偏低,U2则更粗放一点,分值略高。在逻辑上,是可以给出两用户兴趣相似度很高的结论。如果此时用欧式距离来处理,得到的结果却不尽如人意。即评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度。

明可夫斯基距离(Minkowski Distance)

这里的p值是一个变量,当p=2的时候就得到了上面的欧氏距离

切比雪夫距离(Chebyshev Distance)

余弦相似度

余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比欧氏距离,余弦距离更加注重两个向量在方向上的差异

应用场景:比较文本相似度,用于文本查重与去重;计算对象间距离,用于数据聚类等。

猜你喜欢

转载自blog.csdn.net/qq_38858247/article/details/84075266