马氏距笔记

勘误

马氏距离与其推导这篇博客中所提到的:

由于将数据集旋转后数据的各维度之间是不相关的

这句话的意思并不是说维度之间可以线性相关(我们知道坐标系一定是线性无关的)。
假设样本集有n个样本,其样本矩阵:

Xn×m

求出的协方差中的,非对角元素代表的是在该样本矩阵中,不同维度之间的影响。而马氏距离与其推导这篇博客是说协方差的非对角元素为0(各维度之间是不相关的)。
那么协方差的非对角元素为0本身代表什么意思?它是一种统计意义上的“不相关”:指的是对于给定的样本集,在该坐标系下,在这两个维度体现除了统计学意义上的无关性。

就是说样本集在指定坐标系下的某2个维度上体现出了无关性。

马氏距为什么能够很好地抵消不同维度的尺度差异?

这里要先明确几点:

  • 两点之间的马氏距不会因为坐标系的旋转而发生变化
  • 坐标系的旋转会导致样本的值和协方差发生变化

    d2(X,Y)=[(XY)UT](UΣXUT)1[(XY)UT]T

    当坐标系旋转时,U就会发生变化 -> 样本的值和协方差发生变化

    当坐标系旋转到某个位置,协方差会变为对角矩阵:
    这里写图片描述

里面的

λ1...λm

反映了其他维度对本维度值的影响(为1就是不影响,否则就是影响)。

ΣX 的作用等效于先进行坐标系旋转,在得到了对角化的 ΣF 后,再进行各维度尺度缩放(其对角线上的元素就是各个维度上的缩放比例)。

猜你喜欢

转载自blog.csdn.net/byamao1/article/details/80034579