线性判别分析(LDA)

LDA是一种监督学习，通常作为数据预处理阶段的降维技术。监督降维方法！！！

LDA降维的步骤：

计算每个类别样本的均值向量，所有样本的均值向量
通过均值向量，计算类间散度矩阵 $S_B$ 和类内散度矩阵 $S_W$
对 $S_W^{-1}S_BW=\lambda W$ 进行特征值求解，选择前K个特征向量组成 $W$ ，其中K最大为N-1(N是类别数)
新的子空间： $Y = XW$

LDA核心思想：
最大化类间距离，最小化类内距离。

从简单入手，考虑二分类。
LDA最大化的目标：
在这里插入图片描述
其中， $S_b$ 是类间散度矩阵， $S_w$ 是类内散度矩阵。

注意到，解与w的长度无关，只与其方向有关，因此，令分母为1。
在这里插入图片描述
由拉格朗日乘子法，得到
$S_bw=\lambda S_ww$
前面提到 $S_b = (\mu_0-\mu_1)(\mu_0-\mu_1)^T$
因此 $S_bw = (\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$ ，根据结合律，后面两项的结果是一个数
$w = S_w^{-1}(\mu_0-\mu_1)$

将LDA推广到多分类
在多分类情况下，类内散度的定义不变
在这里插入图片描述
其中， $N$ 是类别个数。

定义一个新的概念，全局散度矩阵=类内散度矩阵+类间散度矩阵
在这里插入图片描述
其中 $\mu$ 是所有样本的均值向量， $m$ 是样本个数。

从而，
在这里插入图片描述
再次提醒， $N$ 是类别个数， $m_i$ 是第 $i$ 类的样本个数。

常见的优化目标是：
在这里插入图片描述
其中， $W\in R^{d×(N-1)}$

多分类LDA将样本投影到K维空间(K最大为N-1,N是类别数)，K通常远小于数据维度，并且投影过程中使用了类别信息，LDA是一种监督降维方法。

LDA和PCA的比较请见PCA文章

[1] https://zhuanlan.zhihu.com/p/27899927
[2] https://www.cnblogs.com/pinard/p/6244265.html

线性判别分析(LDA)

猜你喜欢