第6章逻辑斯蒂回归与最大熵模型

二项逻辑回归模型

定义 1.1 二项逻辑回归模型使如下的条件概率分布：

\begin{matrix} (1) & P (Y = 1 | x) = \frac{e x p (ω \cdot x + b)}{1 + e x p (ω \cdot x + b)} \end{matrix}

$P(Y=1|x)=\frac{exp(\omega \cdot x +b)}{1+exp(\omega \cdot x +b)}\tag{1}$

\begin{matrix} (2) & P (Y = 0 | x) = \frac{1}{1 + e x p (ω \cdot x + b)} \end{matrix}

$P(Y=0|x)=\frac{1}{1+exp(\omega \cdot x +b)}\tag{2}$
这里，

x \in R^{n}

$x\in R^n$ 是输入，

Y = {0, 1}

$Y=\{0,1\}$ 是输出，

ω \in R^{n}

$\omega \in R^n$ 和

b \in R

$b\in R$ 是参数。

ω

$\omega$ 是权值向量，

b

$b$ 称为偏置，

ω \cdot x

$\omega \cdot x$ 为

ω

$\omega$ 和

x

$x$ 的内积。
记，

w = (w^{(1)}, w^{(2)}, . . ., w^{(n)}, b)^{T}

$w=(w^{(1)},w^{(2)},...,w^{(n)},b)^T$ ,

x = (x^{(1)}, x^{(2)}, . . ., x^{(n)}, 1)^{T}

$x=(x^{(1)},x^{(2)},...,x^{(n)},1)^T$ ,这时，逻辑回归模型如下：

\begin{matrix} (3) & P (Y = 1 | x) = \frac{e x p (w \cdot x)}{1 + e x p (w \cdot x)} \end{matrix}

$P(Y=1|x)=\frac{exp(w \cdot x)}{1+exp(w \cdot x)} \tag{3}$

\begin{matrix} (4) & P (Y = 0 | x) = \frac{1}{1 + e x p (w \cdot x)} \end{matrix}

$P(Y=0|x)=\frac{1}{1+exp(w \cdot x)} \tag{4}$

线性回归与逻辑回归的联系

线性回归模型进行的是回归学习
逻辑回归模型进行的是分类
一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 $p$ ,那么该事件的几率是\frac{p}{1-p}，该事件的对数几率或logit函数是

l o g i t (p) = \log \frac{p}{1 - p}

$logit(p)=\log \frac{p}{1-p}$ 则由式（3）和（4）可得

l o g \frac{P (Y = 1 | x)}{1 - P (Y = 1 | x)} = w \cdot x

$log \frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x$ 说明，在逻辑回归模型中，输出

Y = 1

$Y=1$ 的对数几率是输入

x

$x$ 的线性函数。
另一方面，考虑对输入

x

$x$ 进行分类的线性函数

w \cdot x

$w \cdot x$ ，其值域为实数域。注意，这里

x \in R^{n + 1}

$x \in R^{n+1}$ ,

w \in R^{n + 1}

$w \in R^{n+1}$ .通过逻辑回归模型定义式(3)可以将线性函数

w \cdot x

$w \cdot x$ 转换为概率

P (Y = 1 | x) = \frac{e x p (w \cdot x)}{1 + e x p (w \cdot x)}

$P(Y=1|x)=\frac{exp(w \cdot x)}{1+exp(w \cdot x)}$ 这时，线性函数的值越接近正无穷，概率值就越接近1；线性函数的值越接近负无穷，概率值就越接近0，这样的模型就是逻辑回归模型。

二元逻辑回归损失函数

设 $P(Y=1|x)=\pi (x)$ , $P(Y=0|x)=1-\pi (x)$ ,则有：

p (y | x) = {π (x)}^{y} (1 - π (x))^{1 - y}

$p(y|x)={\pi (x)}^y(1-\pi(x))^{1-y}$
则相应的极大似然函数：

L (w) = \prod_{i = 1}^{m} p (y_{i} | x_{i}; w) = \prod_{i = 1}^{N} [π (x_{i})]^{y_{i}} [1 - π (x_{i})]^{1 - y_{i}}

$L(w)=\prod_{i=1}^m p(y_i|x_i;w) \\ =\prod_{i=1}^{N}[\pi(x_i)]^{y_{i}}[1-\pi(x_i)]^{1-y_{i}}$
为了便于计算，我们可以对似然函数取对数，有

\log L (w) = \sum_{i = 1}^{N} \log {[π (x_{i})]^{y_{i}} [1 - π (x_{i})]^{1 - y_{i}}}

$\log L(w)=\sum_{i=1}^{N}\log\{[\pi(x_i)]^{y_{i}}[1-\pi(x_i)]^{1-y_{i}}\}$

= \sum_{i = 1}^{N} [y_{i} \log π (x_{i}) + (1 - y_{i}) \log [1 - π (x_{i})]]

$=\sum_{i=1}^{N}[y_i\log\pi(x_i)+(1-y_i)\log[1-\pi(x_i)]]$
因此，损失函数可以通过最小化负的似然函数得到，即

J (w) = - \frac{1}{m} \sum_{i = 1}^{N} [y_{i} \log π (x_{i}) + (1 - y_{i}) \log [1 - π (x_{i})]]

$J(w)=-\frac{1}{m}\sum_{i=1}^{N}[y_i\log\pi(x_i)+(1-y_i)\log[1-\pi(x_i)]]$
逻辑回归通常采用的方法是梯度下降法及拟牛顿法

多元逻辑回归

假设离散型随机变量 $Y$ 的取值集合是 $\{1,2,...,K\}$ ，那么多项逻辑回归模型是

\begin{matrix} (5) & P (Y = k | x) = \frac{e x p (w_{k} \cdot x)}{1 + \sum_{k = 1}^{K - 1} e x p (w_{k} \cdot x)}, k = 1, 2, . . ., K - 1 \end{matrix}

$P(Y=k|x)=\frac{exp(w_k \cdot x)}{1+\sum_{k=1}^{K-1}exp(w_k \cdot x)},k=1,2,...,K-1 \tag{5}$

\begin{matrix} (6) & P (Y = K | x) = \frac{1}{1 + \sum_{k = 1}^{K - 1} e x p (w_{k} \cdot x)} \end{matrix}

$P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_k \cdot x)} \tag{6}$
这里，

x \in R^{n + 1}

$x\in R^{n+1}$ ,

w_{k} \in R^{n + 1}

$w_k\in R^{n+1}$

最大熵模型

最大熵原理

最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型，即在满足约束条件的模型集合中选取熵最大的模型。
定义1.2 （最大熵模型） 假设满足所有约束条件的模型集合为

\begin{matrix} (7) & C \equiv {P \in P | E_{P} (f_{i}) = E_{\tilde{P}} (f_{i})}, i = 1, 2, . . ., n \end{matrix}

$C\equiv\{P\in \mathcal{P} |E_P(f_i)=E_\tilde{P}(f_i)\},i=1,2,...,n \tag{7}$
定义在条件概率分布

P (Y | X)

$P(Y|X)$ 上的条件熵为

\begin{matrix} (8) & H (P) = - \sum_{x, y} \tilde{P} (x) P (y | x) \log P (y | x) \end{matrix}

$H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x) \tag{8}$
则模型集合

C

$C$ 中条件熵

H (P)

$H(P)$ 最大的模型称为最大熵模型。

改进的迭代尺度法

改进的迭代尺度法是一种最大熵模型学习的最优化算法。
已知最大熵模型为

P_{w} (y | x) = \frac{1}{Z_{w} (x)} e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

$P_w(y|x)=\frac{1}{Z_w(x)}exp\left(\sum_{i=1}^nw_if_i(x,y)\right)$
其中，

Z_{w} (x) = \sum_{y} e x p (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

$Z_w(x)=\sum_yexp\left(\sum_{i=1}^nw_if_i(x,y)\right)$
对数似然函数为

L (w) = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) l o g Z_{w} (x)

$L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\tilde{P}(x)logZ_w(x)$
目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值

\hat{w}

$\hat w$
算法 1.1 （改进的迭代尺度算法IIS）
输入：特征函数

f_{1}, f_{2}, . . ., f_{n}

$f_1,f_2,...,f_n$ ；经验分布

\tilde{P} (X, Y)

$\tilde P(X,Y)$ ，模型

P_{w} (y | x)

$P_w(y|x)$
输出：最优参数值

w_{i}^{*}

$w_{i}^*$ ；最优模型

P_{w^{*}}

$P_{w^*}$ .
(1) 对所有

i \in {1, 2, . . ., n}

$i\in\{1,2,...,n\}$ ，取初值

w_{i} = 0

$w_i = 0$
(2) 对每一个

i \in {1, 2, . . ., n}

$i\in\{1,2,...,n\}$ ：
（a）令

δ_{i}

$\delta_i$ 是方程

\sum_{x, y} \tilde{P} (x) P (y | x) f_{i} (x, y) e x p (δ_{i} f^{#} (x, y)) = E_{\tilde{P}} (f_{i})

$\sum_{x,y}\tilde P(x)P(y|x)f_i(x,y)exp(\delta_if^{\#}(x,y))=E_{\tilde P}(f_i)$ 的解，这里，

\begin{matrix} (9) & f^{#} (x, y) = \sum_{i = 1}^{n} f_{i} (x, y) \end{matrix}

$f^{\#}(x,y)=\sum_{i=1}^nf_i(x,y) \tag{9}$
（b）更新

w_{i}

$w_{i}$ 值：

w_{i} \leftarrow w_{i} + δ_{i}

$w_i\leftarrow w_i+\delta_i$
（3）如果不是所有

w_{i}

$w_{i}$ 都收敛，重复步（2）
这一算法关键的一步是(a)，即求解方程(9)中的

δ_{i}

$\delta_i$ 。如果

f^{#} (x, y)

$f^{\#}(x,y)$ 是常数，即对任何

x, y

$x,y$ ，有

f^{#} (x, y) = M

$f^{\#}(x,y)=M$ ，那么

δ_{i}

$\delta_i$ 可以显式地表示成

\begin{matrix} (10) & δ_{i} = \frac{1}{m} l o g \frac{E_{\tilde{P}} (f_{i})}{E_{P} (f_{i})} \end{matrix}

$\delta_i=\frac{1}{m}log\frac{E_{\tilde P}(f_i)}{E_{P}(f_i)}\tag{10}$
如果

f^{#} (x, y)

$f^{\#}(x,y)$ 不是常数，那么必须通过数值计算求

δ_{i}

$\delta_i$ ，简单有效的方法是牛顿法。以

g (δ_{i}) = 0

$g(\delta_i)=0$ 表示方程（9），牛顿法通过迭代求得

δ_{i}^{*}

$\delta_i^*$ ,使得

g (δ_{i}^{*}) = 0

$g(\delta_i^*)=0$ ，迭代公式是

\begin{matrix} (11) & δ_{i}^{(k + 1)} = δ_{i}^{(k)} - \frac{g (δ_{i}^{(k)})}{g^{'} (δ_{i}^{(k)})} \end{matrix}

$\delta_i^{(k+1)}=\delta_i^{(k)}-\frac{g(\delta_i^{(k)})}{g^\prime(\delta_i^{(k)})} \tag{11}$
算法1.2（最大熵模型学习的BFGS算法）
输入：特征函数

f_{1}, f_{2}, . . ., f_{n}

$f_1,f_2,...,f_n$ ；经验分布

\tilde{P} (x, y)

$\tilde{P}(x,y)$ ，目标函数

f (w)

$f(w)$ ，梯度

g (w) = \nabla f (w)

$g(w)=\nabla f(w)$ ,精度要求

ε

$\varepsilon$ ；
输出：最优参数值

w^{*}

$w^*$ ；最优模型

P_{w^{*}} (y | x)

$P_{w^*}(y|x)$ 。
（1）选定初始点

w^{(0)}

$w^{(0)}$ ，取

B_{0}

$B_0$ 为正定对称矩阵，置

k = 0

$k=0$
（2）计算

g_{k} = g (w^{(k)})

$g_k=g(w^{(k)})$ 。若

| | g_{k} | | < ε

$||g_k||<\varepsilon$ ，则停止计算，得

w^{*} = w^{(k)}

$w^*=w^{(k)}$ ，否则转（3）
（3）由

B_{k} p_{k} = - g_{k}

$B_kp_k=-g_k$ 求

p_{k}

$p_k$
（4）一维搜索：求

λ_{k}

$\lambda_k$ 使得

f (w^{(k)} + λ_{k} p_{k}) = min_{λ \geq 0} f (w^{(k)} + λ p_{k})

$f(w^{(k)}+\lambda_kp_k)=\min_{\lambda \ge 0}f(w^{(k)}+\lambda p_k)$
（5）置

w^{(k + 1)} = w^{(k)} + λ p_{k}

$w^{(k+1)}=w^{(k)}+\lambda p_k$
（6）

g_{k + 1} = g (w^{(k + 1)})

$g_{k+1}=g(w^{(k+1)})$ ，若

| | g_{k + 1} | | < ε

$||g_{k+1}||<\varepsilon$ ,则停止计算，得

w^{*} = w^{(k + 1)}

$w^*=w^{(k+1)}$ ，否则，按下式求出

B_{k + 1}

$B_{k+1}$ ：

B_{k + 1} = B_{k} + \frac{y_{k} y_{k}^{T}}{y_{k}^{T} δ_{k}} - \frac{B_{k} δ_{k} δ_{k}^{T} B_{k}}{δ_{k}^{T} B_{k} δ_{k}}

$B_{k+1}=B_{k}+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}$ 其中，

y_{k} = g_{k + 1} - g_{k}

$y_k=g_{k+1}-g_k$ ,

δ_{k} = w^{(k + 1)} - w^{(k)}

$\delta_k=w^{(k+1)}-w^{(k)}$
（7）置

k = k + 1

$k=k+1$ ，转（3）