西瓜书第3章公式推导二

3.3.1 LDA(线性判别分析—–二分类)

给定训练集，将样本投影到一条直线上，使得投影后的异类样本尽可能远离

a r g m a x (| | w^{T} u_{0} - w^{T} u_{1} | |)

$argmax(||w^Tu_0-w^Tu_1||)$ 同类样本尽可能靠近

a r g m i n (w^{T} \sum_{0} w + w^{T} \sum_{1} w)

$argmin(w^T\sum_0w+w^T\sum_1w)$ 使得对新样本进行分类时，对其投影到这条直线上，根据投影位置确定类别。其中

X_{i}, u_{i}, \sum_{i} 分 别 表 示 示 例 集 合 、 均 值 向 量 、 协 方 差 矩 阵 。

$X_i,u_i,\sum_i分别表示示例集合、均值向量、协方差矩阵。$
即

\begin{aligned} (18) & J = & \frac{| | w^{T} u_{0} - w^{T} u_{1} | |^{2}}{w^{T} \sum_{0} w + w^{T} \sum_{1} w} \\ (19) & = & \frac{w^{T} (u_{0} - u_{1}) (u_{0} - u_{1})^{T} w}{w^{T} (\sum_{0} + \sum_{1}) w} \end{aligned}

$\begin{align} J=& \frac{||w^Tu_0-w^Tu_1||^2}{w^T\sum_0w+w^T\sum_1w} \\ =& \frac{w^T(u_0-u_1)(u_0-u_1)^Tw}{w^T(\sum_0+\sum_1)w} \end{align}$
定义 类内散度矩阵

\begin{aligned} (20) & 令 S_{w} = & \sum_{0} + \sum_{1} \\ (21) & = & \sum_{x \in X_{0}} (x - u_{0}) (x - u_{0})^{T} + \sum_{x \in X_{1}} (x - u_{1}) (x - u_{1})^{T} \end{aligned}

$\begin{align}令S_w =& \sum_0+\sum_1 \\ =& \sum_{x\in X_0}(x-u_0)(x-u_0)^T+\sum_{x\in X_1}(x-u_1)(x-u_1)^T \end{align}$
定义 类间散度矩阵

令 S_{b} = (u_{0} - u_{1}) (u_{0} - u_{1})^{T}

$令S_b=(u_0-u_1)(u_0-u_1)^T$
则目标为确定J最大时w的值

J = \frac{w^{T} S_{b} w}{w^{T} S_{w} w}

$J=\frac{w^TS_bw}{w^TS_ww}$
令

w^{T} S_{w} w = 1

$w^TS_ww=1$ 原式变为

m i n (- w^{T} S_{b} w)

$min (-w^TS_bw)$

s . t . w^{T} S_{w} w = 1

$s.t.w^TS_ww=1$
根据拉格朗日乘子式可得

J = - w^{T} S_{b} w + λ (w^{T} S_{w} w - 1)

$J=-w^TS_bw+\lambda (w^TS_ww-1)$

\frac{\partial J}{\partial w} = 0 S_{b} w = λ S_{w} w (u_{0} - u_{1}) (u_{0} - u_{1})^{T} w = λ S_{w} w

$\frac{\partial J}{\partial w}= 0 \\ S_bw=\lambda S_ww \\ (u_0-u_1)(u_0-u_1)^Tw=\lambda S_ww \\$ 因为

(u_{0} - u_{1})^{T} w

$(u_0-u_1)^Tw$ 为常数，设为

λ_{w}

$\lambda_{w}$ 得

(u_{0} - u_{1}) λ_{w} = λ S_{w} w

$(u_0-u_1)\lambda_w=\lambda S_ww$ 常数

λ λ_{w} 只 是 对 w 的 放 大 或 缩 小 ， 所 以 删 掉 得

$\lambda \lambda_w只是对w的放大或缩小，所以删掉得$

w^{*} = S_{w}^{- 1} (u_{0} - u_{1})

$w^*=S_w^{-1}(u_0-u_1)$
若存在

S_{w}

$S_w$ 不可逆，则利用奇异值分解（SVD）来求得。

3.3.2 LDA(多分类问题)

对于多分类的问题， $m_i$ 表示第i类样本的个数。μ 为所有样本的样本均值，而 $u_i$ 则表示第i类样本的样本均值。此时我们得到的都是矩阵而不再是二分类的实数。类间散度矩阵：

S_{b} = \sum_{i = 1}^{N} m_{i} (u_{i} - u) (u_{i} - u)^{T}

$S_b=\sum_{i=1}^Nm_i(u_i-u)(u_i-u)^T$ 类内散度矩阵：

S_{w} = \sum_{i = 1}^{N} \sum_{x \in X_{i}} (x - u_{i}) (x - u_{i})^{T}

$S_w=\sum_{i=1}^N\sum_{x\in X_i}(x-u_i)(x-u_i)^T$
优化目标为

J_{m a x} = \frac{| W^{T} S_{b} W |}{| W^{T} S_{w} W |}

$J_{max}=\frac{|W^TS_bW|}{|W^TS_wW|}$ 或

J_{m a x} = \frac{t r (W^{T} S_{b} W)}{t r (W^{T} S_{w} W)}

$J_{max}=\frac{tr(W^TS_bW)}{tr(W^TS_wW)}$
参照二分类求解，可转化为

\begin{aligned} (9) & S_{b} W = & λ S_{w} W \\ (10) & λ = & S_{w}^{- 1} S_{b} \end{aligned}

$\begin{align}S_bW=& \lambda S_wW \\ \lambda=& S_w^{-1}S_b& \end{align}$

\begin{aligned} (11) & W^{*} = J_{m a x} = & \frac{| W^{T} S_{b} W |}{| W^{T} S_{w} W |} \\ (12) & = & \frac{| W^{T} λ S_{w} W |}{| W^{T} S_{w} W |} \\ (13) & = & λ \end{aligned}

$\begin{align} W^*=J_{max}=& \frac{|W^TS_bW|}{|W^TS_wW|} \\ =& \frac{|W^T\lambda S_wW|}{|W^TS_wW|} \\ =& \lambda \end{align}$

S_{b} = \sum_{i = 1}^{N} m_{i} (u_{i} - u) (u_{i} - u)^{T}

$S_b=\sum_{i=1}^Nm_i(u_i-u)(u_i-u)^T$
可以看出，

S_{b}

$S_b$ 是K个秩一矩阵

(m_{k} - m) (m_{k} - m)^{T}

$(m_k-m)(m_k-m)^T$ 的和（因为

(m_{k} - m)

$(m_k-m)$ 是秩一的向量），所以它的秩最大为K。并

N m = N_{1} m_{1} + N_{2} m_{2} + \dots + N_{k} m_{k}

$Nm=N_1m_1+N_2m_2+\ldots+N_km_k$ ,这K项中有一项可以被线性表出。所以,

S_{b}

$S_b$ 的秩最大为K-1。
所以参数W的值闭式解为矩阵

S_{ω}^{- 1} S_{b}

$S^{−1}_ωS_b$ 的d个最大特征值所对应的特征向量，其中d<=c-1。 因为特征向量的个数通常要远远少于原有数据特征的个数，因此线性判别分析也被视为一种经典的监督降维技术。

可参考教科书上的LDA为什么长这个样子？