【机器学习】降维方法(二)----线性判别分析(LDA)

判别分析

首先了解了一下判别分析。
判别分析(Discriminant Analysis)是多元统计中用于判别样本所属类型的一种方法。通过训练已知分类类别的样本集来建立判别准则，然后用于判别新的预测样本的类别。

常用的判别分析方法有：

1.最大似然法：其基本思想为，通过训练样本集求出各种组合情况下该样本被分为任何一类的概率，确定参数。对于新样本的类别判别，只需要计算它被分到每一类中去的条件概率（似然值），选择概率最大的那一类为其分类。
$\color{red}{回忆前面的朴素贝叶斯和逻辑回归的参数估计，都用到了最大似然的思想。}$
2.距离判别法：其基本思想是，由训练样本集得出每个分类的重心坐标，然后对待预测样本求出它们离各个类别重心的距离远近，从而归入离得最近的类。
$\color{red}{和k均值的思路很像，不过k均值是聚类方法，它的训练样本集的分类类别}$
$\color{red}{未知，k就是我们需要设定的样本类别个数}$
3.Bayes判别法：其基本思想和最大似然法类似，不过最大似然法确定的是参数(点估计)，而贝叶斯会考虑到先验概率，且确定的是参数的分布(分布估计)。
4.Fisher判别法：也就是线性判别分析(LDA)，其基本思路就是投影。将原来在R维空间的样本投影到维度较低的D维空间去，然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小，而不同类间投影的离差尽可能大。
$\color{red}{让我想起了一句话，低耦合高内聚hhh}$
当分类只有两种且总体服从多元正态分布条件下，距离判别、Bayes判别与Fisher判别是等价的。

线性判别分析(LDA)

线性判别分析(Linear Discriminant Analysis)是一种经典的线性学习方法，是一种监督学习方法。将原来在R维空间的样本投影到维度较低的D维空间去，然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小，而不同类间投影的离差尽可能大。如下图(二分类二维示意图)：
这里写图片描述
图中紫色点为0类样本，黄色点为1类样本，蓝色点为0类样本投影点均值，红色为1类样本投影点均值。
给定训练数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ， $x_i\in\{x_i^{(1)},x_i^{(2)},...,x_i^{(n)}\}$ ， $y_i\in\{0,1\}$ ， $X_i$ 表示属于第 $i$ 类的样本的集合。

二分类问题：

$\color{red}{此处我们讨论的是二分类问题}$
0类样本均值 $μ_0$ :
$μ_0=\frac{1}{k_0}\sum\limits_{x\in X_0}x_i$ ， $k_0$ 为0类的样本数量。
$\color{blue}{投影后为：w^Tμ_0}$

1类样本均值 $μ_1$ :
$μ_1=\frac{1}{k_1}\sum\limits_{x\in X_1}x_i$ ， $k_1$ 为1类的样本数量。
$\color{blue}{投影后为：w^Tμ_1}$

0类样本协方差矩阵 $\sum_0$ :
$\sum_0=\sum\limits_{x\in X_0}(x_i-μ_0)(x_i-μ_0)^T$
$\color{blue}{投影后为：w^T\sum_0w}$

1类样本协方差矩阵 $\sum_1$ :
$\sum_1=\sum\limits_{x\in X_1}(x_i-μ_1)(x_i-μ_1)^T$
$\color{blue}{投影后为：w^T\sum_1w}$

类的协方差矩阵越小，表示这个类中的样本越聚集于这个类的均值点。我们希望这些同类样本的投影点尽可能的近，即 $w^T\sum_0w+w^T\sum_1w$ 尽可能的小。
$\color{orange}{类内散度矩阵：S_w=\sum_0+\sum_1}$
对于类的均值的投影点，我们用 $||w^Tμ_0-w^Tμ_1||_2^2$ 表示它们之间的距离。我们希望这个距离尽可能的大。
$\color{orange}{类间散度矩阵：S_b=(μ_0-μ_1)(μ_0-μ_1)^T}$
同时考虑这两者，我们希望最大化 $J(w)$
$J(w)=\frac{||w^Tμ_0-w^Tμ_1||_2^2}{w^T\sum_0w+w^T\sum_1w}=\frac{w^T(μ_0-μ_1)(μ_0-μ_1)^Tw}{w^T(\sum_0+\sum_1)w}=\frac{w^TS_bw}{w^TS_ww}$
为了解这个公式，需要观察这个式子，可以发现上下都有 $w$ 的二次项，因此 $J(w)$ 的解与 $w$ 的长度无关(即 $||w||$ 被上下抵消，不会影响 $J(w)$ 的解，但是w的方向会影响到 $J(w)$ )
对于 $J(w)$ 分子分母都可以取任意值(比如若 $w$ 是一个解，则对于任意常数α，αw也是解)，这样会得到无穷个解，因此我们限制 $w^TS_ww=1$ ，则最大化 $J(w)$ 转换为了这样一个问题：
　　　　 $\max\limits_{w}　w^TS_bw$
　　　　 $s.t.　w^TS_ww=1$
等价于：
　　　　 $\min\limits_{w}　-w^TS_bw$
　　　　 $s.t.　w^TS_ww=1$
对于这种问题，似曾相识，可以用拉格朗日乘子法将约束项和优化问题放在一个式子内，令 $L(w,λ)=-w^TS_bw+λ(w^TS_ww-1)$
求导令 $\frac{\partial L(w,λ)}{\partial w}=-2S_bw+2λS_ww=0$
得 $λS_ww=S_bw$ ，由于 $S_bw$ 的方向恒为 $μ_0-μ_1$ ，所以可以写为 $S_bw=β(μ_0-μ_1)=λ(μ_0-μ_1)$
$\color{red}{(μ_0-μ_1)^Tw是标量，因此S_bw=(μ_0-μ_1)(μ_0-μ_1)^Tw}$
$\color{red}{=β(μ_0-μ_1)，又由于若w是一个解，则对于任意常数α，}$
$\color{red}{αw也是解，因此S_bw=\frac{λ}{β}S_bw=λ(μ_0-μ_1)}$
因此可得 $λS_ww=λ(μ_0-μ_1)$ ， $w=S_w^{-1}(μ_0-μ_1)$ ，然后再对 $S_w$ 进行奇异值分解，得出 $S_w^{-1}$

多分类问题：

将LDA推广到多分类问题。假设存在N个类，第 $i$ 个类的样本数为 $m_i$ ，所有样本数为 $m$ 。
全部样本均值 $μ$ ：
$μ=\frac{1}{m}\sum\limits_{i=1}^mx_i$
第i个类的样本均值 $μ_i$ ：
$μ_i=\frac{1}{m_i}\sum\limits_{x\in X_i}x$
全局散度矩阵 $S_t$ ：
$S_t=S_b+S_w=\sum\limits_{i=1}^m(x_i-μ)(x_i-μ)^T$
$\color{red}{也就是对所有的样本点求协方差得到一个协方差矩阵}$
第i个类的散度矩阵 $S_{wi}$ ：
$S_{wi}=\sum\limits_{x\in X_i}(x-μ_i)(x-μ_i)^T$
类内散度矩阵 $S_w$ ：
$S_w=\sum\limits_{i=1}^NS_{wi}$
$\color{red}{也就是所有类别的散度矩阵(协方差矩阵)之和}$
类间散度矩阵 $S_b$ ：
$S_b=S_t-S_w=\sum\limits_{i=1}^Nm_i(μ_i-μ)(μ_i-μ)^T$
推导如下：
$S_b=S_t-S_w$
$=\sum\limits_{i=1}^m(x_i-μ)(x_i-μ)^T-\sum\limits_{i=1}^N\sum\limits_{x\in X_i}(x-μ_i)(x-μ_i)^T$
$=\sum\limits_{i=1}^N\sum\limits_{x\in X_i}(x-μ)(x-μ)^T-\sum\limits_{i=1}^N\sum\limits_{x\in X_i}(x-μ_i)(x-μ_i)^T$
$=\sum\limits_{i=1}^N\sum\limits_{x\in X_i}[(x-μ)(x-μ)^T-(x-μ_i)(x-μ_i)^T]$
$=\sum\limits_{i=1}^N\sum\limits_{x\in X_i}[(x-μ)(x^T-μ^T)-(x-μ_i)(x^T-μ_i^T)]$
$=\sum\limits_{i=1}^N\sum\limits_{x\in X_i}(xx^T-μx^T-xμ^T+μμ^T-xx^T+μ_ix^T+xμ_i^T-μ_iμ_i^T)$
$=\sum\limits_{i=1}^N\sum\limits_{x\in X_i}[(μ_i-μ)x^T+(μ_i^T-μ^T)x+μμ^T-μ_iμ_i^T]$
$\color{red}{因为μ_i=\frac{1}{m_i}\sum\limits_{x\in X_i}x，所以\sum\limits_{x\in X_i}x=m_iμ_i}$
$=\sum\limits_{i=1}^N[(μ_i-μ)m_iμ_i^T+(μ_i^T-μ^T)m_iμ_i+m_iμμ^T-m_iμ_iμ_i^T]$
$=\sum\limits_{i=1}^N[m_i(μ_iμ_i^T-μμ_i^T+μ_i^Tμ_i-μ^Tμ_i+μμ^T-μ_iμ_i^T)]$
$=\sum\limits_{i=1}^N[m_i(-μμ_i^T+μ_i^Tμ_i-μ^Tμ_i+μμ^T)]$
$=\sum\limits_{i=1}^N[m_i(μ_i-μ)(μ_i-μ)^T]$

由上我们可以看出，任意求得 $S_t$ 、 $S_w$ 、 $S_b$ 三者中任意两个都可以根据得到的两个求出第三个。

常见实现方法如下，优化目标为(找到 $W$ 使得 $W^TS_bW$ 的迹与 $W^TS_wW$ 的迹之商最大)：
　　　 $\max\limits_{W}\frac{tr(W^TS_bW)}{tr(W^TS_wW)}=\frac{\prod\limits_{i=1}^kw_i^TS_bw_i}{\prod\limits_{i=1}^kw_i^TS_ww_i}$
其中 $W\in\Bbb R^{k\times(N-1)}$
$\color{red}{这里用迹是因为W^TS_bW和W^TS_wW是矩阵不是标量}$
求解 $W$ ， $W$ 的闭式解就是 $S_w^{-1}S_b$ 的前 $k$ 个最大非零广义特征值所对应的特征向量组成的矩阵， $k\le N-1$
$\color{red}{也就是对S_w^{-1}S_b进行特征值分解，找到前k个最大的特征值}$

可以将 $W$ 视为一个投影矩阵，则多分类LDA将样本投影到 $k$ 维空间，且在投影过程中使用了类别信息(PCA在投影过程中并未考虑类别信息)

LDA优缺点：

LDA算法的主要优点有：
1.在降维过程中可以使用类别的先验知识经验；
2.LDA在样本分类信息依赖均值而不是方差的时候，降维效果较好。

LDA算法的主要缺点有：
1.LDA不适合对非高斯分布样本进行降维；
2.LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA；
3.LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好；
4.LDA可能过度拟合数据。

参考：
1.《机器学习》3.4线性判别分析—-周志华
2. http://blog.jobbole.com/88195/
3. http://www.cnblogs.com/pinard/p/6244265.html