样本相似度度量

一、欧式距离

  • 已知:两个样本 a ( x 11 , x 12 , . . . , x 1 n ) a(x_{11}, x_{12}, ..., x_{1n}) b ( x 21 , x 22 , . . . , x 2 n ) b(x_{21}, x_{22}, ..., x_{2n})
  • 要求:各维度指标在相同的刻度级别。
  • 距离(2范数): d = k = 1 n ( x 1 k x 2 k ) 2 d=\sqrt{\sum_{k=1}^n(x_{1k}-x_{2k})^2}

二、标准化欧氏距离(加权欧氏距离)

  • 已知:两个样本 a ( x 11 , x 12 , . . . , x 1 n ) a(x_{11}, x_{12}, ..., x_{1n}) b ( x 21 , x 22 , . . . , x 2 n ) b(x_{21}, x_{22}, ..., x_{2n})

  • 要求:转变特征值。

    x = x m s x^*=\frac{x-m}{s} (均值为0,方差为1)
    x x :原特征;
    m m :原特征均值向量;
    s s :原特征标准差。

  • 距离: d = k = 1 n ( x 1 k x 2 k s k ) 2 d=\sqrt{\sum_{k=1}^n(\frac{x_{1k}-x_{2k}}{s_k})^2}

三、曼哈顿距离(city block, 城市街区距离)

  • 已知:两个样本 a ( x 11 , x 12 , . . . , x 1 n ) a(x_{11}, x_{12}, ..., x_{1n}) b ( x 21 , x 22 , . . . , x 2 n ) b(x_{21}, x_{22}, ..., x_{2n})
  • 要求:各维度指标在相同的刻度级别。
  • 距离(1范数): d = k = 1 n x 1 k x 2 k d=\sum_{k=1}^n|x_{1k}-x_{2k}|
  • 举例
    二维平面两点 a ( x 1 , y 1 ) , b ( x 2 , y 2 ) a(x_1, y_1), b(x_2, y_2) 距离: d = x 1 x 2 + y 1 y 2 d=|x_1-x_2|+|y_1-y_2|

四、切比雪夫距离

  • 已知:两个样本 a ( x 11 , x 12 , . . . , x 1 n ) a(x_{11}, x_{12}, ..., x_{1n}) b ( x 21 , x 22 , . . . , x 2 n ) b(x_{21}, x_{22}, ..., x_{2n})
  • 要求:各维度指标在相同的刻度级别。
  • 距离(最大范数): d = max k ( x 1 k x 2 k ) d=\max_k(|x_{1k}-x_{2k}|)
    等价于 d = lim k + ( i = 1 n x 1 i x 2 i k ) 1 k d=\lim_{k \to +\infty}(\sum_{i=1}^n|x_{1i}-x_{2i}|^k)^{\frac{1}{k}}
    (原因我也不太懂,只查到无穷范数就是最大范数,参考:范数对于数学的意义?1范数、2范数、无穷范数

五、闵可夫斯基距离

  • 已知:两个样本 a ( x 11 , x 12 , . . . , x 1 n ) a(x_{11}, x_{12}, ..., x_{1n}) b ( x 21 , x 22 , . . . , x 2 n ) b(x_{21}, x_{22}, ..., x_{2n})
  • 要求:各维度指标在相同的刻度级别。
  • 距离( p p 范数): d = ( i = 1 n x 1 i x 2 i p ) 1 p d=(\sum_{i=1}^n|x_{1i}-x_{2i}|^p)^{\frac{1}{p}}
  • 说明:
    p = 1 p=1 :曼哈顿距离;
    p = 2 p=2 :欧式距离;
    p + p\to+\infty :切比雪夫距离。
欧氏距离、曼哈顿距离、切比雪夫距离和闵科夫斯基距离的缺点:
(1) 等同看待各特征的量纲(也就是单位),但如:“10kg”和“10m”难道是等价的吗?
(2) 没有考虑各分量的分布(期望、方差等)可能是不同的。

六、马氏距离

  • 已知:服从同一分布 且其协方差矩阵为Σ 的随机变量 x x y y
  • 距离: d = ( x y ) T Σ 1 ( x y ) d=\sqrt{(x-y)^T\Sigma^{-1}(x-y)}
  • 意义:计算两个样本间距离时,需考虑样本所在分布的影响,包括以下两个方面:
    a) 不同维度上的方差不同,进而不同维度在计算距离时的重要性不同。
    b) 不同维度之间可能存在相关性,干扰距离。
  • 注意:当数据分布已知时:通常用马氏距离代替欧氏距离,或对数据进行转换(比如PCA)
  • 性质:马氏距离消除了样本不同维度之间的 \color{red}{方差差异} \color{red}{相关性} ,是一个无量纲的度量方式。【不理解为什么就消除了???】
马氏距离与欧氏距离的关系
(1)、协方差矩阵:单位矩阵。
样本特征维度之间的相关性(协方差)为0,量纲一致。
此时:马氏距离=欧氏距离
(2)协方差矩阵:对角矩阵。
样本特征维度之间的量纲一致。
此时:马氏距离=标准化欧氏距离。

七、夹角余弦

  • 已知:两个样本 a ( x 11 , x 12 , . . . , x 1 n ) a(x_{11}, x_{12}, ..., x_{1n}) b ( x 21 , x 22 , . . . , x 2 n ) b(x_{21}, x_{22}, ..., x_{2n})
  • 距离(夹角余弦): cos θ = k = 1 n x 1 k x 2 k k = 1 n x 1 k 2 k = 1 n x 2 k 2 \cos\theta=\frac{\sum_{k=1}^nx_{1k}x_{2k}}{\sqrt{\sum_{k=1}^nx_{1k}^2}\sqrt{\sum_{k=1}^nx_{2k}^2}}
  • 性质:
  1. cos θ [ 0 , 1 ] \cos\theta\in[0,1] ;
  2. \color{red}{夹角余弦与夹角成反比,与相似度成正比。}
    夹角余弦越大----->两个向量的夹角越小----->相似度越大
    夹角余弦越小---->两个向量的夹角越大------->相似度越小
欧氏距离:分析程度(对数值敏感)。
标准欧氏距离:分析程度和倾向。
余弦相似度:分析倾向(从方向上区分差异,对绝对数值不敏感)。

八、汉明距离

  • 已知:两个等长字符串的s1和s2。
  • 距离:将一串变为另外一串所需作的最小替换次数。
  • 举例:“1111”和“1001”之间的汉明距离为2。
  • 应用:信息编码(为了增强容错性,使得编码之间的最小汉明距离尽可能大)。

九、杰卡德(Jccard)距离 & 杰拉德相似系数

杰卡德相似系数
  • 已知:集合 A A B B
  • 定义:交集占并集比例。
    J ( A , B ) = A B A B J(A,B)=\frac{|A\bigcap B|}{|A\bigcup B|}
  • 意义:衡量 两个集合的 相似度
杰卡德距离
  • 已知:集合 A A B B
  • 定义:两集合中 不同元素 占所有元素的比例。
    J δ ( A , B ) = 1 J ( A , B ) = A B A B A B J_\delta (A,B)=1-J(A,B)=\frac{|A\bigcup B|-|A\bigcap B|}{|A\bigcup B|}
  • 意义:衡量 两个集合的 区分度

十、相关系数&相关距离

相关系数
  • 定义: ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) = E ( ( X E ( X ) ) ( Y E ( Y ) ) ) D ( X ) D ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}=\frac{E((X-E(X))(Y-E(Y)))}{\sqrt{D(X)}\sqrt{D(Y)}}
  • 性质:
  1. ρ X Y [ 0 , 1 ] \rho_{XY}\in[0,1]
  2. ρ X Y |\rho_{XY}| 越大,相关性越高;
  3. ρ X Y > 0 \rho_{XY}>0 :正相关;
    ρ X Y < 0 \rho_{XY}<0 :负相关。
相关距离
  • 定义: D X Y = 1 ρ X Y D_{XY}=1-\rho_{XY}
参考

样本相似度度量

发布了37 篇原创文章 · 获赞 0 · 访问量 761

猜你喜欢

转载自blog.csdn.net/weixin_40680322/article/details/103706117