一、欧式距离
- 已知:两个样本
a(x11,x12,...,x1n)和
b(x21,x22,...,x2n)。
- 要求:各维度指标在相同的刻度级别。
- 距离(2范数):
d=∑k=1n(x1k−x2k)2
二、标准化欧氏距离(加权欧氏距离)
-
已知:两个样本
a(x11,x12,...,x1n)和
b(x21,x22,...,x2n)。
-
要求:转变特征值。
x∗=sx−m(均值为0,方差为1)
x:原特征;
m:原特征均值向量;
s:原特征标准差。
-
距离:
d=∑k=1n(skx1k−x2k)2
三、曼哈顿距离(city block, 城市街区距离)
- 已知:两个样本
a(x11,x12,...,x1n)和
b(x21,x22,...,x2n)。
- 要求:各维度指标在相同的刻度级别。
- 距离(1范数):
d=∑k=1n∣x1k−x2k∣
- 举例
二维平面两点
a(x1,y1),b(x2,y2)距离:
d=∣x1−x2∣+∣y1−y2∣
四、切比雪夫距离
- 已知:两个样本
a(x11,x12,...,x1n)和
b(x21,x22,...,x2n)。
- 要求:各维度指标在相同的刻度级别。
- 距离(最大范数):
d=maxk(∣x1k−x2k∣)
等价于
d=k→+∞lim(i=1∑n∣x1i−x2i∣k)k1
(原因我也不太懂,只查到无穷范数就是最大范数,参考:范数对于数学的意义?1范数、2范数、无穷范数)
五、闵可夫斯基距离
- 已知:两个样本
a(x11,x12,...,x1n)和
b(x21,x22,...,x2n)。
- 要求:各维度指标在相同的刻度级别。
- 距离(
p范数):
d=(∑i=1n∣x1i−x2i∣p)p1
- 说明:
p=1:曼哈顿距离;
p=2:欧式距离;
p→+∞:切比雪夫距离。
欧氏距离、曼哈顿距离、切比雪夫距离和闵科夫斯基距离的缺点:
(1) 等同看待各特征的量纲(也就是单位),但如:“10kg”和“10m”难道是等价的吗?
(2) 没有考虑各分量的分布(期望、方差等)可能是不同的。
六、马氏距离
- 已知:服从同一分布 且其协方差矩阵为Σ 的随机变量
x和
y。
- 距离:
d=(x−y)TΣ−1(x−y)
- 意义:计算两个样本间距离时,需考虑样本所在分布的影响,包括以下两个方面:
a) 不同维度上的方差不同,进而不同维度在计算距离时的重要性不同。
b) 不同维度之间可能存在相关性,干扰距离。
- 注意:当数据分布已知时:通常用马氏距离代替欧氏距离,或对数据进行转换(比如PCA)
- 性质:马氏距离消除了样本不同维度之间的
方差差异 和
相关性,是一个无量纲的度量方式。【不理解为什么就消除了???】
马氏距离与欧氏距离的关系
(1)、协方差矩阵:单位矩阵。
样本特征维度之间的相关性(协方差)为0,量纲一致。
此时:马氏距离=欧氏距离
(2)协方差矩阵:对角矩阵。
样本特征维度之间的量纲一致。
此时:马氏距离=标准化欧氏距离。
七、夹角余弦
- 已知:两个样本
a(x11,x12,...,x1n)和
b(x21,x22,...,x2n)。
- 距离(夹角余弦):
cosθ=∑k=1nx1k2
∑k=1nx2k2
∑k=1nx1kx2k
- 性质:
-
cosθ∈[0,1];
-
夹角余弦与夹角成反比,与相似度成正比。
夹角余弦越大----->两个向量的夹角越小----->相似度越大
夹角余弦越小---->两个向量的夹角越大------->相似度越小
欧氏距离:分析程度(对数值敏感)。
标准欧氏距离:分析程度和倾向。
余弦相似度:分析倾向(从方向上区分差异,对绝对数值不敏感)。
八、汉明距离
- 已知:两个等长字符串的s1和s2。
- 距离:将一串变为另外一串所需作的最小替换次数。
- 举例:“1111”和“1001”之间的汉明距离为2。
- 应用:信息编码(为了增强容错性,使得编码之间的最小汉明距离尽可能大)。
九、杰卡德(Jccard)距离 & 杰拉德相似系数
杰卡德相似系数
- 已知:集合
A,
B。
- 定义:交集占并集比例。
J(A,B)=∣A⋃B∣∣A⋂B∣
- 意义:衡量 两个集合的 相似度。
杰卡德距离
- 已知:集合
A,
B。
- 定义:两集合中 不同元素 占所有元素的比例。
Jδ(A,B)=1−J(A,B)=∣A⋃B∣∣A⋃B∣−∣A⋂B∣
- 意义:衡量 两个集合的 区分度。
十、相关系数&相关距离
相关系数
- 定义:
ρXY=D(X)
D(Y)
Cov(X,Y)=D(X)
D(Y)
E((X−E(X))(Y−E(Y)))
- 性质:
-
ρXY∈[0,1];
-
∣ρXY∣越大,相关性越高;
-
ρXY>0:正相关;
ρXY<0:负相关。
相关距离
- 定义:
DXY=1−ρXY
参考
样本相似度度量