《应用多元统计分析》何晓群 第五章
欧式距离的定义:
欧氏距离通常携带有量纲,因此量纲的影响会对距离的计算结果产生很大影响。
比如如果携带单位的话,两对坐标点是
A(0,5),B(10,0)
C(0,10),D(1,0)
如果同度量的话,比如都是cm,AB距离为,CD之间的距离为,AB的距离比CD长
但是用非同度量,比如横轴坐标用cm,纵轴坐标用mm的话,此时纵轴坐标就多了一个数量级。而欧式距离体现不出来,此时计算的公式为AB=,CD的距离为.反而CD的更长了。
马氏距离的定义
为什么就没有权重的影响了呢。为了给出坐标的合理权数(意思是加一个权重,使得样本的量纲影响消失),用坐标标准离差去除以每个坐标,得到的标准化坐标,距离为
这样, 由于方差也携带有量纲,且上面的减号的平方也携带平方的量纲,两个一除就可以抵消了。这样就消除了量纲的影响。
其中,如果设定为的倒数,就可以写成
其中A为P与Q的协方差矩阵的逆。此时就定义了马氏距离