全部笔记的汇总贴：统计学习方法读书笔记汇总贴

PDF免费下载：《统计学习方法（第二版）》

逻辑斯谛回归 (logistic regression ）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model) 。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

一、逻辑斯谛回归模型

设 $X$ 是连续随机变量， $X$ 服从逻辑斯谛分布是指 $X$ 具有下列分布函数和密度函数： $F(x)=P(X\le x)=\frac1{1+e^{-\frac{(x-\mu)}\gamma}}\\f(x)=F'(x)=\frac{e^{-\frac{(x-\mu)}\gamma}}{\gamma(1+e^{-\frac{(x-\mu)}\gamma})^2}$ 其中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数。
在这里插入图片描述
分布函数 $F (x)$ 属于逻辑斯蒂函数，图形是一条 $S$ 形曲线，该曲线以 $(\mu,\frac12)$ 为中心对称，即满足 $F(-x+\mu)-\frac12=-F(x+\mu)+\frac12$ 曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数 $\gamma$ 的值越小，曲线在中心附近增长得越快。

二项逻辑斯谛回归模型（binomial logistic regression model）是一种分类模型，由条件概率分布 $P (Y ∣ X)$ 表示，形式为参数化的逻辑斯蒂分布。条件概率分布为： $P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\P(Y=0|x)=\frac1{1+\exp(w\cdot x)}$

一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。逻辑斯蒂回归的对数几率为 $\log \frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x$ 这就是说，在逻辑斯谛回归模型中，输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数。或者说，输出 $Y = 1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，即逻辑斯谛回归模型。

多项逻辑斯蒂回归模型 $P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}\\P(Y=K|x)=\frac1{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}$

二、最大熵模型

最大熵模型（maximum entropy model) 由最大熵原理推导实现，最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。
$H(P)=-\sum_xP(x)\log P(x)\\0\le H(P)\le \log|X|$ 其中， $∣ X ∣$ 是 $X$ 的取值个数，当且仅当 $X$ 是均匀分布时右边等号成立，也就是说，当 $X$ 服从均匀分布时，熵最大。

直观的可以把它看作等可能事件，具体的解析解求法可以用有约束的拉格朗日法。

三、模型学习的最优化算法

常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快，但约束过多。

这里讲解一个书上提到的迭代尺度法（IIS）。可以看看这篇文献，讲的很详细：The Improved Iterative Scaling Algorithm
已知最大熵模型为： $P_w(y|x)=\frac1{Z_w(x)}\exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)\;\;\;\;\;\;(1)$
其中， $Z_w(x)=\sum_y\exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)（规范化因子）\;\;\;\;\;(2)$
对数似然函数为 $L_{\hat p}(w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\hat P(x)\log Z_w(x)\;\;\;\;(3)$
给定联合经验分布函数 $\hat p(x,y)$ ，根据条件模型 $p_w(y|x)$ ，其对数似然函数为 $L_{\hat p}(w)=\sum_{x,y}\hat p(x,y)\log p_w(y|x)\;\;\;\;\;\;(4)$
由(1)、(2)式可得 $L_{\hat p}(w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_{x,y}\hat P(x,y)\log Z_w(x)\;\;\;\;\;\;(5)$
对比(3)和(5)，可得 $\sum_x\hat P(x)=\sum_{x,y}\hat P(x,y)$

将(2)代入(3)得 $L_{\hat p}(w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\hat P(x)\log \sum_y\exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)$
对 $w_i$ 求偏导 $\frac{\partial L_{\hat p}(w)}{\partial w_i}=\sum_{x,y}\hat P(x,y)f_i(x,y)-\sum_{x,y}\hat p(x)p_w(y|x)f_i(x,y)$
令导数等于0得 $\sum_{x,y}\hat P(x,y)f_i(x,y)=\sum_{x,y}\hat p(x)p_w(y|x)f_i(x,y)$
即经验分布 $\hat p(x,y)$ 的期望于经验分布 $\hat p(x)$ 的值相等是一个很自然的条件。

IIS 的想法是：假设最大熵模型当前的参数向量是 $(w_1 ,w_2，\cdots，w_n)^T$ ，我们希望找到一个新的参数向量 $w+\delta = (w_1+\delta_1 ,w_2+\delta_2，\cdots，w_n+\delta_n)^T$ ，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法 $\tau :w\rightarrow w+\delta$ ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

根据(4)得 $L_{\hat p}(w+\delta)-L_{\hat p}(w)=\sum_{x,y}\hat p(x,y)\log p_{w+\delta}(y|x)-\sum_{x,y}\hat p(x,y)\log p_w(y|x)\\=\sum_{x,y}\hat P(x,y)\sum_{i=1}^n(w_i+\delta-w_i)f_i(x,y)-\sum_{x}\hat P(x)\log Z_{w+\delta}(x)+\sum_{x}\hat P(x)\log Z_w(x)\\=\sum_{x,y}\hat P(x,y)\sum_{i=1}^n(w_i+\delta-w_i)f_i(x,y)-{\color{blue}\sum_{x}\hat P(x)\log \frac{Z_{w+\delta}(x)}{ Z_w(x)}}$
利用不等式 $-\log a\ge1-a(a>0)$
所以 $L_{\hat p}(w+\delta)-L_{\hat p}(w)\ge\sum_{x,y}\hat P(x,y)\sum_{i=1}^n\delta f_i(x,y)+{\color{blue}\sum_{x}\hat P(x)-\sum_{x}\hat P(x) \frac{Z_{w+\delta}(x)}{ Z_w(x)}}\;\;\;\;\;\;(又\sum_{x}\hat P(x) =1)\\=\sum_{x,y}\hat P(x,y)\sum_{i=1}^n\delta f_i(x,y)+{\color{blue}1-\sum_{x}\hat P(x) \frac{Z_{w+\delta}(x)}{ Z_w(x)}}$
又因为 $\frac{Z_{w+\delta}(x)}{ Z_w(x)}=\frac1{ Z_w(x)}\cdot \sum_y\exp\Big(\sum_{i=1}^n(w_i+\delta_i)f_i(x,y)\Big)\\=\frac1{ Z_w(x)}\cdot \sum_y\exp\Big(\sum_{i=1}^nw_if_i(x,y)+\sum_{i=1}^n\delta_if_i(x,y)\Big)\\=\sum_y\frac1{ Z_w(x)}\cdot \exp\Big(\sum_{i=1}^nw_if_i(x,y)\Big)\exp\Big(\sum_{i=1}^n\delta_if_i(x,y)\Big)\\=\sum_yp_w(y|x)\exp\Big(\sum_{i=1}^n\delta_if_i(x,y)\Big)$
即 $L_{\hat p}(w+\delta)-L_{\hat p}(w)\ge \sum_{x,y}\hat P(x,y)\sum_{i=1}^n\delta f_i(x,y)+1-\sum_{x}\hat P(x) \sum_yp_w(y|x)\exp\Big(\sum_{i=1}^n\delta_if_i(x,y)\Big)$
将右端记作 $A(\delta|w)$

所以 $L_{\hat p}(w+\delta)-L_{\hat p}(w)\ge A(\delta|w)$ 即 $A(\delta|w)$ 是对数似然函数改变量的一个下界。

如果能找到适当的 $\delta$ 使下界 $A(\delta|w)$ 提高，那么对数似然函数也会提高。但是 $A(\delta|w)$ 是一个 $n$ 维向量，不易于同时优化。IIS试图每次优化其中一个 $\delta_i$ ，而固定其他变量 $\delta_j,i\ne j$ 。我们引入新的量 $f^\#(x,y)=\sum_if_i(x,y)$ 因为 $f_i(x,y)$ 是一个二值函数， $f^\#(x,y)$ 表示特征 $(x, y)$ 出现的次数。所以我们重写 $A(\delta|w)$ 得到 $A(\delta|w)=\sum_{x,y}\hat P(x,y)\sum_{i=1}^n\delta f_i(x,y)+1-\sum_{x}\hat P(x) \sum_yp_w(y|x)\exp\Big({\color{blue}f^\#(x,y)}\sum_{i=1}^n\frac{\delta_if_i(x,y)}{\color{blue}f^\#(x,y)}\Big)\;\;\;\;\;(6)$
利用指数函数的凸函数性质以及对任意 $i$ 有 $\frac{f_i(x,y)}{f^\#(x,y)}\ge 0$ 且 $\sum_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}=1%+$ 这一事实，根据Jensen不等式，得到 $\exp\Big(\sum_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}\delta_i f^\#(x,y)\Big)\le \sum_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}\exp\Big(\delta_i f^\#(x,y)\Big)$
令 $p(x)=\frac{f_i(x,y)}{f^\#(x,y)},q(x)=\delta_i f^\#(x,y)$ ，重写(6)得到 $A(\delta|w)\ge \sum_{x,y}\hat P(x,y)\sum_{i=1}^n\delta f_i(x,y)+1-\sum_{x}\hat P(x) \sum_yp_w(y|x) \sum_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}\exp\Big(\delta_i f^\#(x,y)\Big)$
不等式右边记为 $B(\delta|w)= \sum_{x,y}\hat P(x,y)\sum_{i=1}^n\delta f_i(x,y)+1-\sum_{x}\hat P(x) \sum_yp_w(y|x) \sum_{i=1}^n\frac{f_i(x,y)}{f^\#(x,y)}\exp\Big(\delta_i f^\#(x,y)\Big)$
所以 $L_{\hat p}(w+\delta)-L_{\hat p}(w)\ge B(\delta|w)$
对于新的下界 $B(\delta|w)$ ，对 $\delta_i$ 求偏导得 $\frac{\partial B(\delta|w)}{\partial\delta_i}=\sum_{x,y}\hat P(x,y) f_i(x,y)-\sum_{x}\hat P(x) \sum_yp_w(y|x) \sum_{i=1}^n{f_i(x,y)}\exp\Big(\delta_i f^\#(x,y)\Big)$ 令导数为0，得 $\sum_{x,y}\hat P(x,y) f_i(x,y)=\sum_{x}\hat P(x) \sum_yp_w(y|x) \sum_{i=1}^n{f_i(x,y)}\exp\Big(\delta_i f^\#(x,y)\Big)$
$\sum_{x,y}\hat P(x) p_w(y|x) \sum_{i=1}^n{f_i(x,y)}\exp\Big(\delta_i f^\#(x,y)\Big)=E_{\hat p}(f_i)\;\;\;\;\;\;\;\;\;\;(7)$

依次对 $\delta_i$ 求解方程(7)从而求出 $\delta$ 。

改进的迭代尺度算法
输入：特征函数 $f_1,f_2,\cdots,f_n;$ 对于经验分布函数 $\hat P(X,Y)$ ，模型 $P_w(y|x)$
输出：最优参数值 $w_i^*$ ；最优模型 $P_{w^*}$ 。

对所有 $i\in\{1,2,\cdots,n\}$ ，取初值 $w_i=0$ 。

对每一 $i\in\{1,2,\cdots,n\}$

(1)令 $\delta_i$ 是方程 $\sum_{x,y}\hat P(x) p_w(y|x) \sum_{i=1}^n{f_i(x,y)}\exp\Big(\delta_i f^\#(x,y)\Big)=E_{\hat p}(f_i)$ 的解，这里 $f^\#(x,y)=\sum_if_i(x,y)$
(2)更新 $w_i$ 值： $w_i\rightarrow w_i+\delta_i$

如果不是所有的 $w_i$ 都收敛，重复2。

这一算法的关键是(1)，即求解方程(7)中的 $\delta_i$ ，如果 $f^\#(x,y)$ 是常数，即对任何 $x, y$ 有 $f^\#(x,y)=M$ 那么 $\delta_i$ 可以显示地表示成 $\delta_i=\frac1M\log\frac{E_{\hat p}(f_i)}{E_p(f_i)}$ 如果 $f^\#(x,y)$ 不是常数，那么必须通过数值计算求 $\delta_i$ 。简单有效地方法是牛顿法，以 $g(\delta_i)=0$ 表示方程（7），牛顿法通过迭代求得 $\delta_i^*$ ，使得 $g(\delta^*_i)=0$ 迭代公式是 $\delta_i^{(k+1)}=\delta_i^{(k)}-\frac{g(\delta_i^{(k)})}{g'(\delta_i^{(k)})}$
只要适当的选取初始值 $\delta_i^{(0)}$ ，由于 $\delta_i$ 的方程（7）有单根，因此牛顿法恒收敛，而且收敛的速度很快。

另一种方法是拟牛顿法，可以查看附录B

下一章传送门：统计学习方法读书笔记（七）-支持向量机

统计学习方法读书笔记（六）-逻辑斯蒂回归与最大熵模型（迭代尺度法（IIS））

一、逻辑斯谛回归模型

二、最大熵模型

三、模型学习的最优化算法

猜你喜欢