距离和相似度

总结一下模式识别中的距离和相似度计算方式

一.距离

首先介绍闵科夫斯基距离:



r=1,城市街区距离,一个例子是汉明距离
r=2,欧几里得距离
r=∞,上确界距离

作为欧式距离的扩展,马氏距离的定义为:





马氏距离计算的是向量的协方差,可以理解为是根据属性的方差,将属性根据方差 拉伸后求得的距离。

二.相似度

1 二元数据相似度

简单匹配系数(SMC),公式:



jacob系数,公式:



简单匹配系数和jacob系数比较相似,可以理解为,简单匹配系数对于所有的属性平等对待,而jacob系数更关注被比较双方同时发生的事件,忽略都没有做的事件(一个常见的例子是购物)

2 余弦相似度



余弦相似度计算的是两个向量之间的夹角余弦值,在计算之前将变量规范化,可以节省计算时间

3 广义jacob系数

广义jacob系数在二元属性下退化为jacob系数,公式:



4 相关性(皮尔逊相关)

相关性是计算属性间相关度的公式,结果在-1到1之间,-1表示属性完全负相关,1表示完全正相关,贴出公式和图解释。






补充:
tanimoto系数





参考:

《数据挖掘导论》

猜你喜欢

转载自onmyway-1985.iteye.com/blog/2079799