LDA算法（Fisher线性判别）

LDA算法目的

最小化类内方差，最大化不同类中心间的距离。

LDA算法推导过程

假设：

样本共 $K$ 类，每一类的样本个数为 $N_{1},N_{2},……,N_{k}$ 。
$x_{1}^{1},x_{1}^{2},……,x_{1}^{N_{1}}$ 对应第一类
……

$x_{K}^{1},x_{K}^{2},……,x_{1}^{N_{K}}$ 对应第 $K$ 类
以上所有 $x_{i}^{j}$ 皆为 $n$ 维向量。
设 $\tilde{x}_{i}^{j}$ 为 $x_{i}^{j}$ 变化后的样本，即：
$\tilde{x}_{i}^{j}=<x,u>u=(x^{T}u)u$

类内方差

第 $k$ 类之间的样本方差为：
$S_{k}=\frac{1}{N_{k}}\sum_{\tilde{x}\in D_{k}}(\tilde{x}-\tilde{m})^{T}(\tilde{x}-\tilde{m})$
其中， $D_{k}$ 为由第 $k$ 类样本所构成的空间。 $\tilde{m}$ 为变化后的第 $k$ 类样本的均值，即：
$\tilde{m}=\frac{\mathop{\sum}\limits_{\tilde{x}\in{D_{k}}}\tilde{x}}{N_{k}}$
故 $\tilde{m}$ 也是 $n$ 维向量。
将 $\tilde{x}_{i}^{j}=(x^{T}u)u$ 代入 $S_{k}$ 得：
$S_{k}=\frac{1}{N_{k}}\sum_{x\in D_{k}}[(x^{T}u)u^{T}-(m^{T}u)u^{T}][(x^{T}u)u-(m^{T}u)u]$
$=\frac{1}{N_{k}}\sum_{x\in D_{k}}[(x^{T}u)^{2}u^{T}u-2(x^{T}u)(m^{T}u)u^{T}u+(m^{T}u)^{2}u^{T}u]$
假设 $u^{T}u=a\quad(a为一常数)$ 。
则：
$S_{k}=\frac{a}{N_{k}}\sum_{x \in D_{k}}[(x^{T}u)^{2}-2(x^{T}u)(m^{T}u)+(m^{T}u)^{2}]$
$=\frac{a\mathop{\sum}\limits_{x\in D_{k}}(x^{T}u)^{2}}{N_{k}}-2\frac{a\mathop{\sum}\limits_{x\in D_{k}}x^{T}(um^{T}u)}{N_{k}}+\frac{a\mathop{\sum}\limits_{x\in D_{k}}(m^{T}u)^{2}}{N_{k}}$
$=\frac{a\mathop{\sum}\limits_{x\in D_{k}}u^{T}xx^{T}u}{N_{k}}-2\frac{a\mathop{\sum}\limits_{x\in D_{k}}x^{T}}{N_{k}}um^{T}u+a(m^{T}u)^{2}$
$=u^{T}\frac{a\mathop{\sum}\limits_{x\in D_{k}}xx^{T}}{N_{k}}u-a(m^{T}u)^{2}$
$=u^{T}\frac{a\mathop{\sum}\limits_{x\in D_{k}}xx^{T}}{N_{k}}u-au^{T}mm^{T}u$
$=au^{T}(\frac{\mathop{\sum}\limits_{x\in D_{k}}xx^{T}}{N_{k}}-mm^{T})u$
所以 $K$ 类样本的总方差为：
$\sum_{k=1}^{K}S_{k}=\sum_{k=1}^{K}au^{T}(\frac{\mathop{\sum}\limits_{x\in D_{k}}xx^{T}}{N_{k}}-mm^{T})u$
令 $S_{w}=\mathop{\sum}\limits_{k=1}^{K}(\frac{\mathop{\sum}\limits_{x\in D_{k}}xx^{T}}{N_{k}}-mm^{T})$
则：
$\sum_{k=1}^{K}S_{k}=au^{T}S_{w}u$
此为总类内方差。

不同类中心间的距离

设 $S_{i,j}$ 为第 $i$ 类和第 $j$ 类中心间的距离，则：
$S_{i,j}=(\tilde{m}_{i}-\tilde{m}_{j})^{T}(\tilde{m}_{i}-\tilde{m}_{j})$
将 $\tilde{m}=(m^{T}u)u$ 代入得：
$S_{i,j}=[(m_{i}^{T}u)u^{T}-(m_{j}^{T}u)u^{T}][(m_{i}^{T}u)u-(m_{j}^{T}u)u]$
$=u^{T}[(m_{i}^{T}u)-(m_{j}^{T}u)][(m_{i}^{T}u)-(m_{j}^{T}u)]u$
$=u^{T}[(m_{i}^{T}u)-(m_{j}^{T}u)][(u^{T}m_{i})-(u^{T}m_{j})]u$
$=u^{T}(m_{i}^{T}-m_{j}^{T})uu^{T}(m_{i}-m_{j})u$
$=u^{T}(m_{i}-m_{j})^{T}a(m_{i}-m_{j})u$
$=au^{T}(m_{i}-m_{j})^{T}(m_{i}-m_{j})u$
所以对于全部 $K$ 类样本来说，
$\sum_{\mathop{i,j}\limits_{i\ne j}} S_{i,j}=au^{T}\sum_{\mathop{i,j}\limits_{i\ne j}}(m_{i}-m_{j})^{T}(m_{i}-m_{j})u$
令 $S_{b}=\mathop{\sum}\limits_{\mathop{i,j}\limits_{i\ne j}}(m_{i}-m_{j})^{T}(m_{i}-m_{j})$ ，则：
$\sum_{\mathop{i,j}\limits_{i\ne j}} S_{i,j}=au^{T}S_{b}u$
LDA算法的目的即将 $\mathop{\sum}\limits_{k=1}^{K}S_{k}$ 最小化，将 $\mathop{\sum}\limits_{\mathop{i,j}\limits_{i\ne j}} S_{i,j}$ 最大化。
设需要优化的函数为：
$J_{(u)}=\frac{u^{T}S_{b}u}{u^{T}S_{w}u}$
因为 $u$ 只对方向有要求而对大小没有限制，故可以假设 $u^{T}S_{w}u=1$ ，然后保证 $u^{T}S_{b}u$ 最大化。
即此问题可以被转化为最优化问题：
$max\; u^{T}S_{b}u\quad s.t.\; u^{T}S_{w}u=1$
引入拉格朗日函数，
$L_{(u,\lambda)}=u^{T}S_{b}u+\lambda(1-u^{T}S_{w}u)$
令 $\frac{\partial L}{\partial u}=0$ ，得 $S_{b}u=\lambda S_{w}u$
因为 $S_{w}=\mathop{\sum}\limits_{k=1}^{K}(\frac{\mathop{\sum}\limits_{x\in D_{k}}xx^{T}}{N_{k}}-mm^{T})$ ，而 $\frac{\mathop{\sum}\limits_{x\in D_{k}}xx^{T}}{N_{k}}-mm^{T}$ 实质上为 $k$ 类样本的协方差矩阵，通常为正定的，求和后更加正定。故 $S_{w}$ 一般是可逆的。
故可得：
$S_{w}^{-1}S_{b}u=\lambda u$
令 $T=S_{w}^{-1}S_{b}$ ，则上式转化为：
$Tu=\lambda u$
求出 $T$ 的特征值和特征向量，从而得到 $u$ 的最好方向。

PCA和LDA的区别

$PCA$ 最小重构误差，使得投影后的值和原来的值尽量接近，属于非监督学习，用来解决降维问题。
$LDA$ 最大化类间距离，最小化类内距离，使得投影后的不同类别的样本分的更开，属于监督学习，用来解决分类问题。
假设只有两类，则 $S_{b}=(m_{1}-m_{2})(m_{1}-m_{2})^{T}$ ，由于 $m_{1}-m_{2}$ 为一 $n$ 维向量，则 $R(S_{b})\leq1$ ，故 $R(T)\leq1$ 。所以矩阵 $T$ 最多只有一个非零特征根，即有意义的特征向量最多只有一个，即最多只能得到一个投影方向 $u$ 。
实际上，若有 $N$ 类样本，则通过 $LDA$ 算法最多只能得到 $N-1$ 个投影方向。
而对于 $PCA$ 算法，若样本维数为 $n$ 维，则无论如何都可以找到 $n$ 个投影方向。
例如，对于两类 $10$ 维向量， $LDA$ 算法可以得到一个投影方向，而 $PCA$ 算法可以得到十个投影方向。

cofisher

发布了36 篇原创文章 · 获赞 1 · 访问量 561

私信关注