LDA原理小结

　　线性判别分析（Linear Discrimination Analysis，LDA）是一种经典的线性学习方法。它既可以用于分类，又可以作为一种降维方法。

1. LDA的基本思想

　　LDA基本思想比较简单：给定带有标签的训练样本集，设法将样本投影到一条直线上，使得同类样本的投影点尽可能近，异类样本的投影点尽可能远。如果是进行分类，将新样本投影到同样的这条直线上，根据投影点的位置来确定新样本的类别。

　　举个例子，上图给出了两种不同的投影方式，直观上来看右图更好。因为右图中蓝色和红色数据较为集中，且类别之间的距离明显，而左图边界处数据混杂。
　　那么如何用数学语言对“同类样本的投影点尽可能近，异类样本的投影点尽可能远”进行表达呢，这里需要引入广义瑞利商。

2. 瑞利商和广义瑞利商

　　瑞利商是指这样的函数 $R(A,x)$ ：

\begin{matrix} (1) & R (A, x) = \frac{x^{H} A x}{x^{H} x} \end{matrix}

$R(A,x)=\frac{x^HAx}{x^Hx} \tag{1}$ 其中

x

$x$ 为非零向量，

A

$A$ 为

n \times n

$n\times n$ 的Hermitan矩阵（复共轭对称矩阵，即共轭转置矩阵和自己相等，记为

A^{H} = A

$A^H=A$ ），这里我们只讨论实数的情况，所以

A^{T} = A

$A^T=A$ 。瑞利商还有一个很重要的性质：

\begin{matrix} (2) & λ_{m i n} \leq R (A, x) \leq λ_{m a x} \end{matrix}

$\lambda_{min}\le R(A,x) \le \lambda_{max}\tag{2}$ 其中

λ_{m i n}, λ_{m a x}

$\lambda_{min},\lambda_{max}$ 是矩阵

A

$A$ 的最小和最大特征值。
　　当

x

$x$ 是标准正交基时，即

x^{T} x = 1

$x^Tx=1$ 时，瑞利商退化为

R (A, x) = x^{T} A x

$R(A,x)=x^TAx$ ，这个形式在谱聚类和PCA中都有出现，比如PCA中是

W^{T} X X^{T} W

$W^TXX^TW$ 的形式（所以说瑞利商和样本投影方差有关？）。
　　现在再来看看广义瑞利商的概念：

\begin{matrix} (3) & R (A, B, x) = \frac{x^{H} A x}{x^{H} B x} \end{matrix}

$R(A,B,x)=\frac{x^HAx}{x^HBx} \tag{3}$ 其中

x

$x$ 为非零向量，

A, B

$A,B$ 为

n \times n

$n\times n$ 的Hermitan矩阵。通过标准化，可以将广义瑞利商转化为瑞利商的形式。令

x = B^{- \frac{1}{2}} x^{'}

$x=B^{-\frac{1}{2}}x'$ ，则(2)变为：

\begin{aligned} R (A, B, x^{'}) & = \frac{x^{' H} B^{- \frac{1}{2}} A B^{- \frac{1}{2}} x^{'}}{x^{' H} B^{- \frac{1}{2}} B B^{- \frac{1}{2}} x^{'}} \\ = \frac{x^{' H} B^{- 1} A x^{'}}{x^{' H} x^{'}} \end{aligned}

$\begin{align*}R(A,B,x')&=\frac{x'^HB^{-\frac{1}{2}}AB^{-\frac{1}{2}}x'}{x'^HB^{-\frac{1}{2}}BB^{-\frac{1}{2}}x'}\\&=\frac{x'^HB^{-1}Ax'}{x'^Hx'}\end{align*}$ 根据式(2)，我们可以知道，

R (A, B, x^{'})

$R(A,B,x')$ 的最大值为矩阵

B^{- 1} A

$B^{-1}A$ 的最大特征值，最小值为

B^{- 1} A

$B^{-1}A$ 的最小特征值。

3. 二分类LDA原理

　　回顾第一节，LDA的思想是设法将样本投影到一条直线上，使得：
　　
- 同类样本的投影点尽可能近
- 异类样本的投影点尽可能远
　　
　　现在我们来讨论一下如何用数学语言表示这两条性质，现在我们首先从比较简单的二类LDA入手，分析LDA原理。

　　给定数据集

D = {(x_{i}, y_{i})}_{i = 1}^{m}

$D=\{(x_i,y_i)\}_{i=1}^{m}$ ，其中

x_{i}

$x_i$ 为

n

$n$ 维向量，

y_{i} \in {0, 1}

$y_i \in \{0,1\}$ 。令

X_{i}, μ_{i}, Σ_{i}

$X_i,\mu_i,\Sigma_i$ 分别表示第

i \in {0, 1}

$i\in \{0, 1\}$ 类样本的集合、均值向量、协方差矩阵，即：

\begin{aligned} μ_{i} & = \frac{1}{| X_{i} |} \sum_{x \in X_{i}} x (i = 0, 1) \\ Σ_{i} & = \sum_{x \in X_{i}} (x - μ_{i}) (x - μ_{i})^{T} (i = 0, 1) \end{aligned}

$\begin{align*}\mu_i&=\frac{1}{|X_i|}\sum_{x \in X_i}x　(i=0, 1)\\ \Sigma_i &=\sum_{x \in X_i}(x-\mu_i)(x-\mu_i)^T　(i=0, 1)\end{align*}$ 如果将数据投影到直线

w

$w$ 上，则两类样本的中心在直线上的投影分别为

w^{T} μ_{0}

$w^T\mu_0$ 和

w^{T} μ_{1}

$w^T\mu_1$ （图中实心圆和实心三角）。所有样本在直线上投影的协方差分别为

w^{T} Σ_{0} w

$w^T\Sigma_0w$ 和

w^{T} Σ_{1} w

$w^T\Sigma_1w$ 。于是我们可以有下面的结论：
　　
- 同类样本的投影点尽可能近

\Rightarrow min w^{T} Σ_{0} w + w^{T} Σ_{1} w

$\Rightarrow\min{w^T\Sigma_0w+w^T\Sigma_1w}$
- 异类样本的投影点尽可能远

\Rightarrow max ‖ w^{T} μ_{0} - w^{T} μ_{1} ‖_{2}^{2}

$\Rightarrow\max\|w^T\mu_0-w^T\mu_1\|_2^2$
　　
　　所以我们的优化目标为：

\begin{matrix} (4) & \arg max_{w} J (w) = \frac{‖ w^{T} μ_{0} - w^{T} μ_{1} ‖_{2}^{2}}{w^{T} Σ_{0} w + w^{T} Σ_{1} w} = \frac{w^{T} (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} w}{w^{T} (Σ_{0} + Σ_{1}) w} \end{matrix}

$\arg\max_wJ(w)=\frac{\|w^T\mu_0-w^T\mu_1\|_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}\tag{4}$ 我们一般定义类内散度矩阵

S_{w}

$S_w$ 为：

\begin{matrix} (5) & S_{w} = Σ_{0} + Σ_{1} = \sum_{x \in X_{0}} (x - μ_{0}) (x - μ_{0})^{T} + \sum_{x \in X_{1}} (x - μ_{1}) (x - μ_{1})^{T} \end{matrix}

$S_w=\Sigma_0+\Sigma_1=\sum_{x \in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x \in X_1}(x-\mu_1)(x-\mu_1)^T\tag{5}$ 定义类间散度矩阵

S_{b}

$S_b$ 为：

\begin{matrix} (6) & S_{b} = (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} \end{matrix}

$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T\tag{6}$ 则

J (w)

$J(w)$ 可重写为：

\begin{matrix} (7) & J (w) = \frac{w^{T} S_{b} w}{w^{T} S_{w} w} \end{matrix}

$J(w)=\frac{w^TS_bw}{w^TS_ww}\tag{7}$ 然后这就是广义瑞利商的形式，那么如何确定

w

$w$ 呢？
　　注意到(7)中分子分母都是关于

w

$w$ 的二次项，所以(7)的解与

w

$w$ 大小无关，只与其方向有关，不妨取

w^{T} w = 1

$w^Tw=1$ ，即

w

$w$ 为标准正交基，(4)等价于

\begin{matrix} (8) & \arg max_{w} w^{T} S_{w}^{- 1} S_{b} w s . t . w^{T} w = 1 \end{matrix}

$\arg\max_ww^TS_w^{-1}S_bw　　　　s.t.　w^Tw=1\tag{8}$ 然后这又又又又是一个约束优化问题，拉格朗日乘子法走起来，对应的拉格朗日函数为

\begin{matrix} (9) & L (w, λ) = - w^{T} S_{w}^{- 1} S_{b} w + λ (w^{T} w - 1) \end{matrix}

$L(w,\lambda)=-w^TS_w^{-1}S_bw+\lambda(w^Tw-1)\tag{9}$ 对

w

$w$ 求导并令导数等于0可得：

\begin{matrix} (10) & S_{w}^{- 1} S_{b} w = λ w \end{matrix}

$S_w^{-1}S_bw=\lambda w\tag{10}$ 和PCA一样的套路，又变成对

S_{w}^{- 1} S_{b}

$S_w^{-1}S_b$ 特征分解的问题了。对于二分类来说，

S_{b} w

$S_bw$ 的方向恒为

μ_{0} - μ_{1}

$\mu_0-\mu_1$ ，不妨令

S_{b} w = λ (μ_{0} - μ_{1})

$S_bw=\lambda (\mu_0-\mu_1)$ ，代入(10)得：

\begin{matrix} (11) & w = S_{w}^{- 1} (μ_{0} - μ_{1}) \end{matrix}

$w=S_w^{-1}(\mu_0-\mu_1)\tag{11}$ 所以，对于二分类样本，只要求出原始样本的均值和方差就能确定最佳的投影方向

w

$w$ 了。

4. 多分类LDA原理

　　如果是多类向低维投影，则此时投影到的低维空间就不是一条直线，而是一个超平面了。优化目标变为：

\begin{matrix} (12) & \arg max_{w} W^{T} S_{w}^{- 1} S_{b} W s . t . W^{T} W = 1 \end{matrix}

$\arg\max_wW^TS_w^{-1}S_bW　　　　s.t.　W^TW=1\tag{12}$

W

$W$ 为低维空间基向量组成的矩阵，

W \in R^{d \times (N - 1)}

$W \in \mathbb{R}^{d\times(N-1)}$ ，其中

N

$N$ 为样本类别数。对于约束优化问题(12)，同样利用拉格朗日乘子法可以得到

W

$W$ 的解是

S_{w}^{- 1} S_{b}

$S_w^{-1}S_b$ 的

d^{'}

$d'$ 个最大非零广义特征值所对应的特征向量组成的矩阵，

d^{'} \leq N - 1

$d' \le N-1$ 。

5. LDA算法流程

输入： $d$ 维数据集 $X=\{(x_i,y_i)\}_{i=1}^{m}$ ， $y_i \in \{1,2,\dots,N\}$ ，要降到的维度 $d'$
输出：降维后的数据集 $X'$
Step1: 计算类内散度矩阵 $S_w$ ：

S_{w} = \sum_{i = 1}^{N} \sum_{x \in X_{i}} (x - μ_{i}) (x - μ_{i})^{T}

$S_w=\sum_{i=1}^N\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T$ Step2: 计算类间散度矩阵

S_{b}

$S_b$ ：

S_{b} = \sum_{i = 1}^{N} m_{i} (μ_{i} - μ) (μ_{i} - μ)^{T}

$S_b=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T$ 其中

m_{i}

$m_i$ 为第

i

$i$ 类的样本数目，

μ

$\mu$ 为所有样本均值向量
Step3: 计算矩阵

S_{w}^{- 1} S_{b}

$S_w^{-1}S_b$
Step4: 对

S_{w}^{- 1} S_{b}

$S_w^{-1}S_b$ 进行奇异值分解，得到奇异值

λ_{i}

$\lambda_i$ 及其对应的特征向量

w_{i}

$w_i$ ，

i = 1, 2, \dots, N - 1

$i=1, 2, \dots,N-1$ 。
Step5: 取前

d^{'}

$d'$ 大的奇异值对应的特征向量组成投影矩阵

W

$W$
Step6: 计算样本集中每个样本

x_{i}

$x_i$ 在新的低维空间的投影

z_{i}

$z_i$ ：

z_{i} = W^{T} x_{i}

$z_i=W^Tx_i$
Step7: 得到降维后的样本集

X^{'} = {(z_{i}, y_{i})}_{i = 1}^{m}

$X'=\{(z_i,y_i)\}_{i=1}^{m}$

5. 小结

　　LDA降维和PCA降维有很多相似之处：
　　(1) 两者在降维时都使用了特征分解的思想
　　(2) 两者都假设数据符合高斯分布，因此LDA和PCA都不适合对非高斯分布的样本进行降维
　　相对于PCA，LDA又有所不同：
　　(1) LDA是有监督的降维方法，降维过程中可以使用类别的先验知识经验，而PCA不行
　　(2) LDA选择分类性能最好的投影方向，而PCA选择最大方差的投影方向，因此LDA有过拟合的风险
　　(3) LDA最多能降到 $N-1$ 的维数，如果降维维度大于 $N-1$ ，则不能使用LDA，而PCA没有这个限制
　　(4) 当样本分类信息依赖均值时LDA效果较好；依赖方差的时候PCA效果较好