线性分类模型(三)——判别式模型

本文首发于我的个人博客Suixin’s Blog
原文: https://suixinblog.cn/2018/10/linear-classification3.html　　作者: Suixin

判别式方法：直接对条件概率分布 $p(C_k|\pmb{x})$ 进行建模。
相比生成式方法有两个优点：需要训练的参数更少，预测表现会提升（尤其当类条件概率密度的假设没有很好的近似真实分布的时候）。

logistic回归

对于二分类问题，类别 $C_1$ 的后验概率为
$p(C_1|\pmb{\phi})=y(\pmb{\phi})=\sigma(\pmb{w}^\top\pmb{\phi})$
可见，对于 $M$ 维特征空间 $\pmb{\phi}$ ，该模型只有 $M$ 个可调节参数，而生成式模型需要调节参数总数为 $\frac{M(M+5)}{2}+1$ 。
对于一个数据集 $\{\pmb{\phi}_n,t_n\}$ ，其中， $t_n\in \{0,1\}$ 且 $\pmb{\phi}_n=\phi(\pmb{x}_n)$ ， $n=1,2,\cdots,N$ 。
似然函数为
$p(\textbf{t}|\pmb{w})=\prod_{n=1}^Ny_n^{t_n}(1-y_n)^{1-t_n}$
其中， $\textbf{t}=(t_1,t_2,\cdots,t_N)^\top$ 。通过对似然函数取负对数的方式定义一个误差函数，即交叉熵（cross-entropy）误差函数
$E(\pmb{w})=-\ln p(\textbf{t}|\pmb{w})=-\sum_{n=1}^N\{t_n\ln y_n+(1-t_n)\ln(1-y_n)\}$
对 $\pmb{w}$ 求梯度，可得
$\nabla E(\pmb{w})=\sum_{n=1}^N(y_n-t_n)\pmb{\phi}_n=\Phi^\top(\textbf{y}-\textbf{t})$
注：最大似然方法对于线性可分的数据集会产生严重的过拟合。

迭代重加权最小平方（IRLS）

logistic回归不再有解析解，故需要用Newton-Raphson迭代
$\pmb{w}^{new}=\pmb{w}^{old}-H^{-1}\nabla E(\pmb{w})$
其中， $H$ 是Hessian矩阵，其元素为 $E(\pmb{w})$ 关于 $\pmb{w}$ 的二阶导数。
推导可得
$H=\nabla\nabla E(\pmb{w})=\sum_{n=1}^Ny_n(1-y_n)\pmb{\phi}_n\pmb{\phi}_n^\top=\Phi^\top R\Phi$
其中， $N\times N$ 的对角矩阵 $R$ 元素为 $R_{nn}=y_n(1-y_n)$ 。由于 $o<y_n<1$ ，故对任意向量 $u$ 都有 $u^\top Hu>0$ ，即 $H$ 正定，因此误差函数是 $\pmb{w}$ 的凸函数，有唯一最小值。

softmax分类

对于多分类问题，后验概率为
$p(C_k|\pmb{\phi})=y_k(\pmb{\phi})=\frac{\exp(a_k)}{\sum_j\exp(a_j)}$
其中， $a_k=\pmb{w}_k^\top\pmb{\phi}$ 。求导，有
$\frac{\partial y_k}{\partial a_j}=\begin{cases} y_k(1-y_k), & j=k \\ -y_ky_j, & j\neq k \end{cases}$
从而，似然函数为
$p(T|\pmb{w}_1,\cdots,\pmb{w}_K)=\prod_{n=1}^N\prod_{k=1}^Kp(C_k|\pmb{\phi}_n)^{t_{nk}}=\prod_{n=1}^N\prod_{k=1}^Ky_{nk}^{t_{nk}}$
其中， $y_{nk}=y_k(\pmb{\phi}_n)$ ， $T$ 是一个 $N\times K$ 的矩阵，元素 $t_{nk}$ 为1-of-K编码值。
交叉熵误差函数为
$E(\pmb{w}_1,\cdots,\pmb{w}_K)=-\ln p(T|\pmb{w}_1,\cdots,\pmb{w}_K)=-\sum_{n=1}^N\sum_{k=1}^Kt_{nk}\ln y_{nk}$
同样利用Newton-Raphson迭代可求解。

参考

“Pattern Recognition and Machine Learning”