样本相似度度量

一、欧式距离

已知：两个样本 $a(x_{11}, x_{12}, ..., x_{1n})$ 和 $b(x_{21}, x_{22}, ..., x_{2n})$ 。
要求：各维度指标在相同的刻度级别。
距离（最大范数）： $d=\max_k(|x_{1k}-x_{2k}|)$
等价于 $d=\lim_{k \to +\infty}(\sum_{i=1}^n|x_{1i}-x_{2i}|^k)^{\frac{1}{k}}$
（原因我也不太懂，只查到无穷范数就是最大范数，参考：范数对于数学的意义？1范数、2范数、无穷范数）

欧氏距离、曼哈顿距离、切比雪夫距离和闵科夫斯基距离的缺点：
(1) 等同看待各特征的量纲（也就是单位），但如：“10kg”和“10m”难道是等价的吗？
(2) 没有考虑各分量的分布（期望、方差等）可能是不同的。

已知：服从同一分布且其协方差矩阵为Σ 的随机变量 $x$ 和 $y$ 。
距离： $d=\sqrt{(x-y)^T\Sigma^{-1}(x-y)}$
意义：计算两个样本间距离时，需考虑样本所在分布的影响，包括以下两个方面：
a) 不同维度上的方差不同，进而不同维度在计算距离时的重要性不同。
b) 不同维度之间可能存在相关性，干扰距离。
注意：当数据分布已知时：通常用马氏距离代替欧氏距离，或对数据进行转换（比如PCA）
性质：马氏距离消除了样本不同维度之间的 $\color{red}{方差差异}$ 和 $\color{red}{相关性}$ ，是一个无量纲的度量方式。【不理解为什么就消除了？？？】

马氏距离与欧氏距离的关系
(1)、协方差矩阵:单位矩阵。
样本特征维度之间的相关性（协方差）为0，量纲一致。
此时：马氏距离=欧氏距离
(2)协方差矩阵：对角矩阵。
样本特征维度之间的量纲一致。
此时：马氏距离=标准化欧氏距离。

已知：两个样本 $a(x_{11}, x_{12}, ..., x_{1n})$ 和 $b(x_{21}, x_{22}, ..., x_{2n})$ 。
距离（夹角余弦）： $\cos\theta=\frac{\sum_{k=1}^nx_{1k}x_{2k}}{\sqrt{\sum_{k=1}^nx_{1k}^2}\sqrt{\sum_{k=1}^nx_{2k}^2}}$
性质：

$\cos\theta\in[0,1]$ ;
$\color{red}{夹角余弦与夹角成反比，与相似度成正比。}$
夹角余弦越大----->两个向量的夹角越小----->相似度越大
夹角余弦越小---->两个向量的夹角越大------->相似度越小

欧氏距离：分析程度（对数值敏感）。
标准欧氏距离：分析程度和倾向。
余弦相似度：分析倾向（从方向上区分差异，对绝对数值不敏感）。

已知：集合 $A$ ， $B$ 。
定义：两集合中不同元素占所有元素的比例。
$J_\delta (A,B)=1-J(A,B)=\frac{|A\bigcup B|-|A\bigcap B|}{|A\bigcup B|}$
意义：衡量两个集合的 区分度。

发布了37 篇原创文章 · 获赞 0 · 访问量 761

私信关注