LDA（线性判别分类器）学习笔记

Linear Discriminant Analysis（线性判别分类器）是对费舍尔的线性鉴别方法(FLD)的归纳，属于监督学习的方法。

LDA的基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。因此，它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大，并且同时类内散布矩阵最小。就是说，它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离，即模式在该空间中有最佳的可分离性。

预备知识

协方差与协方差矩阵

协方差

协方差分为随机变量的协方差和样本的协方差。

随机变量的协方差

跟数学期望、方差一样，是分布的一个总体参数。协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，完全线性无关，协方差为零。定义如下。

$$cov\left(X,Y\right)=E\left[\left(X-E\left[X\right])(Y-E\left[Y\right]\right)\right]$$

因为变量尺度不同，所以不能用若干协方差的大小作为相关性强弱的比较。因此引入相关系数，本质上是对协方差进行归一化。

$$\eta=\frac{cov\left(X,Y \right )}{\sqrt{var\left(X \right )\cdot var\left(Y \right )}}$$

取值范围[-1,1]。

样本的协方差

对于现有的m个样本，每个样本均具有n维属性，每一维属性我们都可以将其看作是一个随机变量。每一个样本$x_j =\left[x_{1j} ,...,x_{nj} \right ]$。那么我们就可以考察样本集中，两个随机变量（两属性）间的线性关系。计算和随机变量的协方差一致。

$$q_{ab}=\frac{\sum_{j=1}^{m}\left(x_{aj}-\bar{x}_a \right )\left(x_{bj}-\bar{x}_b \right )}{m-1}$$

因为在这里我们只有样本，随机变量的数学期望未知，用样本均值代替，所以自由度减一得到m-1。

协方差矩阵

多维随机变量的协方差矩阵

考虑多维随机变量，那么原先的两变量之间的协方差就可以扩展为多维随机变量中任意两变量之间的协方差，并进一步构造成协方差矩阵。

$$\Sigma_{i,j}=cov\left(X_i,X_j \right )\\ \Sigma=E\left[\left(X-E\left[X \right ] \right )\left(X-E\left[Y \right ] \right )^T \right ]$$