一般情况下,常用的距离度量方法有这两种:欧氏距离和余弦相似度
欧氏距离会受指标不同单位刻度影响,所以,在使用前一般要先标准化,距离越大,个体间差异越大
余弦相似度的夹角相似度度量不会受指标刻度影响,余弦值在区间【-1,1】,值越大,越相似。
1、欧氏距离:也叫欧几里得距离
两点之间或多点之间的距离表示法
d(x,y)=sqrt((x1-y1)^2+(x2-y2)^2+...+(xn-yn)^2)
改进方法1:
标准化欧氏距离:针对各分量分布不一致,将各分量都标准化到均值,方差相等
标准化后值:(标准化前的值-分量的均值)/分量标准差
改进方法2:
马氏距离:表示点与分布之间的距离,考虑到各种特性之间的联系,且尺度无关。
对于均值为μ,协方差为Σ的多变量向量,马氏距离为sqrt((x-μ)Σ^(-1)(x-μ))
2、余弦相似度计算
用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。
cos(seta) = (a^2+b^2-c^2)/(2ab)
或
cos(seta) =(a*b)/(||a||x||b||)
或
(x1,y1)*(x2,y2)/sqrt(x1^2+y1^2)xsqrt(x2^2+y2^2)
==
(x1x2,+y1y2)/sqrt(x1^2+y1^2)xsqrt(x2^2+y2^2)