经典机器学习算法：线性判别分析LDA

参考csdn博客：线性判别分析（LDA）基本原理及实现

线性判别分析介绍

一、模型

线性判别分析LDA是二分类的线性分类模型。

LDA：Linear Discrimant Analysis

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的，这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”，如下图所示。
在这里插入图片描述

在 LDA 中，我们要将数据在低维度上进行投影，投影后的数据需要满足两个条件，从而可以更好地分类：

每一种类别数据的投影点尽可能的接近。
不同类别的数据的类别中心之间的距离尽可能的大。

二、推导

投影

在这里插入图片描述

首先是投影，我们假定原来的数据是向量 $x$ ，那么顺着 $w$ 方向的投影就是标量：
$|x|\cos\theta =\frac{w^T\cdot x}{|w|}$
当 $∣ ∣ w ∣ ∣ = 1$ 时，投影 = $w^T\cdot x$

我们的目标模型是： $z=w^T\cdot x$ = 投影

根据 $z$ 所要满足的几何关系，求解 $w$

减小类内方差

相同类内部的样本更为接近，我们假设属于两类的试验样本数量分别是 $N_1$ 和 $N_2$ ，那么我们采用方差矩阵来表征每一个类内的总体分布，这里我们使用了方差的定义，用 $S$ 表示原数据的方差：
$\begin{aligned} C_1:Var_z[C_1]&=\frac{1}{N_1}\sum\limits_{i=1}^{N_1}(z_i-\overline{z_{c1}})(z_i-\overline{z_{c1}})^T\\ &=\frac{1}{N_1}\sum\limits_{i=1}^{N_1}(w^Tx_i-\frac{1}{N_1}\sum\limits_{j=1}^{N_1}w^Tx_j)(w^Tx_i-\frac{1}{N_1}\sum\limits_{j=1}^{N_1}w^Tx_j)^T\\ &=w^T\frac{1}{N_1}\sum\limits_{i=1}^{N_1}(x_i-\overline{x_{c1}})(x_i-\overline{x_{c1}})^Tw\\ &=w^TS_1w\\ C_2:Var_z[C_2]&=\frac{1}{N_2}\sum\limits_{i=1}^{N_2}(z_i-\overline{z_{c2}})(z_i-\overline{z_{c2}})^T\\ &=w^TS_2w \end{aligned}$
所以类内距离可以记为：
$\begin{aligned} Var_z[C_1]+Var_z[C_2]=w^T(S_1+S_2)w \end{aligned}$

增大类间距离

不同类别的数据的类别中心之间的距离尽可能的大。我们可以用两类的均值表示这个距离：
$\begin{aligned} (\overline{z_{c1}}-\overline{z_{c2}})^2&=(\frac{1}{N_1}\sum\limits_{i=1}^{N_1}w^Tx_i-\frac{1}{N_2}\sum\limits_{i=1}^{N_2}w^Tx_i)^2\\ &=(w^T(\overline{x_{c1}}-\overline{x_{c2}}))^2\\ &=w^T(\overline{x_{c1}}-\overline{x_{c2}})(\overline{x_{c1}}-\overline{x_{c2}})^Tw \end{aligned}$

损失函数

综合这两点，由于协方差是一个矩阵，于是我们用将这两个值相除来得到我们的损失函数，并最大化这个值：
$\begin{aligned} \hat{w}=\mathop{argmax}\limits_wJ(w)&=\mathop{argmax}\limits_w\frac{(\overline{z_{c1}}-\overline{z_{c2}})^2}{Var_z[C_1]+Var_z[C_2]}\\ &=\mathop{argmax}\limits_w\frac{w^T(\overline{x_{c1}}-\overline{x_{c2}})(\overline{x_{c1}}-\overline{x_{c2}})^Tw}{w^T(S_1+S_2)w}\\ \end{aligned}$
这样，我们就把损失函数和原数据集以及参数结合起来了。 $S_b$ 为类间方差， $S_w$ 为类内方差。
$\mathop{argmax}\limits_wJ(w)=\mathop{argmax}\limits_w\frac{w^TS_bw}{w^TS_ww},S_b = (\overline{x_{c1}}-\overline{x_{c2}}),S_w=(S_1+S_2)$
下面对这个损失函数求偏导，注意我们其实对 $w$ 的绝对值没有任何要求，只对方向有要求，因此只要一个方程就可以求解了：
$\begin{aligned} \frac{\partial}{\partial w}J(w)&=\frac{\partial}{\partial w}w^TS_bw(w^TS_ww)^{-1}\\ &=2S_bw(w^TS_ww)^{-1}-2w^TS_bw(w^TS_ww)^{-2}S_ww\\ &=0\\ &\Longrightarrow S_bw(w^TS_ww)=(w^TS_bw)S_ww（约掉重复项）\\ &\Longrightarrow w\propto S_w^{-1}S_bw=S_w^{-1}(\overline{x_{c1}}-\overline{x_{c2}})(\overline{x_{c1}}-\overline{x_{c2}})^Tw\\ &\because (\overline{x_{c1}}-\overline{x_{c2}})^Tw =实数(行向量乘于列向量） \\ &\Longrightarrow w\propto S_w^{-1}(\overline{x_{c1}}-\overline{x_{c2}})=S_w^{-1}S_b \end{aligned}$
于是 $S_w^{-1}S_b$ 就是我们需要寻找的方向。最后可以归一化求得单位的 $w$ 值( $w$ 为 $p * 1$ 列向量）。

找到方向所对应的向量，就是所要投影的那条线所对应的向量，接下来就可以进行二分类了。