线性判别分析(LDA)

LDA是一种监督学习,通常作为数据预处理阶段的降维技术。监督降维方法!!!

LDA降维的步骤:

  1. 计算每个类别样本的均值向量,所有样本的均值向量
  2. 通过均值向量,计算类间散度矩阵 S B S_B 和类内散度矩阵 S W S_W
  3. S W 1 S B W = λ W S_W^{-1}S_BW=\lambda W 进行特征值求解,选择前K个特征向量组成 W W ,其中K最大为N-1(N是类别数)
  4. 新的子空间: Y = X W Y = XW

LDA核心思想:
最大化类间距离,最小化类内距离。

从简单入手,考虑二分类。
LDA最大化的目标:
在这里插入图片描述
其中, S b S_b 是类间散度矩阵, S w S_w 是类内散度矩阵。
在这里插入图片描述
在这里插入图片描述

注意到,解与w的长度无关,只与其方向有关,因此,令分母为1。
在这里插入图片描述
由拉格朗日乘子法,得到
S b w = λ S w w S_bw=\lambda S_ww
前面提到 S b = ( μ 0 μ 1 ) ( μ 0 μ 1 ) T S_b = (\mu_0-\mu_1)(\mu_0-\mu_1)^T
因此 S b w = ( μ 0 μ 1 ) ( μ 0 μ 1 ) T w S_bw = (\mu_0-\mu_1)(\mu_0-\mu_1)^Tw ,根据结合律,后面两项的结果是一个数
w = S w 1 ( μ 0 μ 1 ) w = S_w^{-1}(\mu_0-\mu_1)

将LDA推广到多分类
在多分类情况下,类内散度的定义不变
在这里插入图片描述
其中, N N 是类别个数。

定义一个新的概念,全局散度矩阵=类内散度矩阵+类间散度矩阵
在这里插入图片描述
其中 μ \mu 是所有样本的均值向量, m m 是样本个数。

从而,
在这里插入图片描述
再次提醒, N N 是类别个数, m i m_i 是第 i i 类的样本个数。

常见的优化目标是:
在这里插入图片描述
其中, W R d × ( N 1 ) W\in R^{d×(N-1)}
在这里插入图片描述

多分类LDA将样本投影到K维空间(K最大为N-1,N是类别数),K通常远小于数据维度,并且投影过程中使用了类别信息,LDA是一种监督降维方法。

LDA和PCA的比较请见PCA文章

[1] https://zhuanlan.zhihu.com/p/27899927
[2] https://www.cnblogs.com/pinard/p/6244265.html

猜你喜欢

转载自blog.csdn.net/YQMind/article/details/84936348