总结一下模式识别中的距离和相似度计算方式
一.距离
首先介绍闵科夫斯基距离:
r=1,城市街区距离,一个例子是汉明距离
r=2,欧几里得距离
r=∞,上确界距离
作为欧式距离的扩展,马氏距离的定义为:
马氏距离计算的是向量的协方差,可以理解为是根据属性的方差,将属性根据方差
拉伸后求得的距离。
二.相似度
1 二元数据相似度
简单匹配系数(SMC),公式:
jacob系数,公式:
简单匹配系数和jacob系数比较相似,可以理解为,简单匹配系数对于所有的属性平等对待,而jacob系数更关注被比较双方同时发生的事件,忽略都没有做的事件(一个常见的例子是购物)
2 余弦相似度
余弦相似度计算的是两个向量之间的夹角余弦值,在计算之前将变量规范化,可以节省计算时间
3 广义jacob系数
广义jacob系数在二元属性下退化为jacob系数,公式:
4 相关性(皮尔逊相关)
相关性是计算属性间相关度的公式,结果在-1到1之间,-1表示属性完全负相关,1表示完全正相关,贴出公式和图解释。
补充:
tanimoto系数
参考:
《数据挖掘导论》
距离和相似度
猜你喜欢
转载自onmyway-1985.iteye.com/blog/2079799
今日推荐
周排行