欧氏距离与马氏距离

《应用多元统计分析》何晓群 第五章

欧式距离的定义:

欧氏距离通常携带有量纲,因此量纲的影响会对距离的计算结果产生很大影响。

比如如果携带单位的话,两对坐标点是

A(0,5),B(10,0)

C(0,10),D(1,0)

如果同度量的话,比如都是cm,AB距离为\sqrt{5^2+10^2}=\sqrt{125},CD之间的距离为\sqrt{10^2+1^2}=\sqrt{101},AB的距离比CD长

但是用非同度量,比如横轴坐标用cm,纵轴坐标用mm的话,此时纵轴坐标就多了一个数量级。而欧式距离体现不出来,此时计算的公式为AB=\sqrt{50^2+10^2}=\sqrt{2600 },CD的距离为\sqrt{100^2+1^2}=\sqrt{10001}.反而CD的更长了。

马氏距离的定义

为什么就没有权重的影响了呢。为了给出坐标的合理权数(意思是加一个权重,使得样本的量纲影响消失),用坐标标准离差去除以每个坐标,得到的标准化坐标,距离为

d(P,Q)=\sqrt{\sum\frac{ (p_{i}-q_{i})^2}{S_{i}}}

这样, 由于方差也携带有量纲,且上面的减号的平方也携带平方的量纲,两个一除就可以抵消了。这样就消除了量纲的影响。

其中,如果设定a_{i}S_{i}的倒数,就可以写成

d(P,Q)=\sqrt{\sum a_{i}(p_{i}-q_{i})^2}}=[(X-Y)^{'}A(X-Y)]^{1/2}

其中A为P与Q的协方差矩阵的逆。此时就定义了马氏距离

猜你喜欢

转载自blog.csdn.net/bingfeiqiji/article/details/82774957