【机器学习】LR与最大熵模型的关系

逻辑回归与最大熵模型MaxEnt的关系?

逻辑回归跟最大熵模型到底有啥区别呢？

简单粗暴 的回答是：逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况，也就是当逻辑回归类别扩展到多类别时，就是最大熵模型。

在进行下面推导之前，先上几个数学符号定义，假定输入是一个n维空间的实数向量:

$x^{(i)},\cdots,x^{(m)}$ 表示输入数据，其中 $x^{(i)}\in\mathbb{R}^n$ 。其中 $x^{(i)}$ 表示第 $i$ 条记录。同时使用 $x^{(i)}_j$ 来表示记录中的某个特征，或者对应的参数。
$y^{(i)},\cdots,y^{(m)}$ 表示输出，或者类别，标签。取值集合 $\{1,\cdots,k\}$ ，对于标准的逻辑回归有 $k=2$ ，对于 $1,\cdots,k$ ，类别之间没有顺序，只是一个符号而已。同时我们会用变量 $u,v$ 来指代对应的类别/输出/标签变量。
$\pi()$ 表示已经或者需要学习的概率函数。 $\pi()\mathbb{R}^n\in \mathbb{R}^k$ 。也就是输入n维空间到输出类别k维空间的映射。比如 $\pi(x)_u$ ，表示对输入 $x$ 为类别 $u$ 的概率。
$A(u,v)$ 记为只是函数，Indicator.定义为 $A(u,v)=1$ 当 $u=v$ ；否则 $A(u,v)=0$

我们的任务就是学习一个函数使得 $f(x^{(i)})\approx y^{(i)}$ ，对所有 $i$ 成立，更进一步，学习这么一个模型，用 $\pi(x^{(i)})_v$ 表示 $y^{(i)}=v$ 的概率。因此 $\pi()$ 有如下一些特性：

$\pi(x)_v\geq0$ 恒成立
$\sum_{v=1}^k\pi(x)_v = 1$ 恒成立
$\pi(x^{(i)})_{y^{(i)}}$ 越大越好

逻辑回归

标准的逻辑回归是二类模型， $k=2$ ，有：

$\begin{align*} \pi(x)_1&={e^{\lambda x} \over 1+e^{\lambda x}}={1\over 1+e^{-\lambda x}} \\ \pi(x)_2 &= 1-\pi(x)_1 \end{align*}$

其中 $\lambda \in \mathbb{R}^n$ 的向量，模型由参数 $\lambda$ 完全控制。实际上有种符号更加对称而且更为通用的的表达方式 $(k>2)$

$\begin{align*} \pi(x)_v={e^{\lambda_v x} \over \sum_{u=1}^k e^{\lambda_u x}} \end{align*}$

这里 $\lambda$ 是一个 $k*n$ 的矩阵，对应每一个类别一个向量。

实际上在相当于LR的多分类One Vs All策略，对每个类别都训练一个LR二分类。

我们原始 $k=2$ 的形式，是通过迫使参数 $\lambda_2$ 为zero vector获得的。

由上式我们可以获得一些有益的推导公式：

记 $\alpha_v = \lambda_vx = \sum_{j=1}^n \lambda_{v,j}x_j$ ，则我们有 $\begin{align*} \pi(x)_v = {e^{\alpha_v} \over \sum_{u=1}^ke^{\alpha_u}} \end{align*}$

$\begin{align*} \frac{\partial \pi(x)_v}{\partial \alpha_u} &=\frac{\partial }{\partial \alpha_u}\left [ {e^{\alpha_v} \over \sum_{u=1}^k e^{\alpha_u}} \right ]\\ &= {\frac{\partial e^{\alpha_v}}{\partial \alpha_u}\cdot \sum_{u=1}^ke^{\alpha_u}-e^{\alpha_u}\cdot e^{\alpha_v} \over \left [ \sum_{u=1}^ke^{\alpha_u} \right ]^2}\\ &= {\frac{\partial e^{\alpha_v}}{\partial \alpha_u} \over \sum_{u=1}^k e^{\alpha_u}} - {e^{\alpha_u} \over \sum_{u=1}^k e^{\alpha_u}} \cdot {e^{\alpha_v} \over \sum_{u=1}^k e^{\alpha_u}} \end{align*}$

$\begin{align*} {\partial \pi(x)_v \over \partial \alpha_u} &= \pi(x)_v-\pi(x)_u\pi(x)_v=\pi(x)_v(1-\pi(x)_u) \ \ \ when\ \ u=v\\ {\partial \pi(x)_v \over \partial \alpha_u} &= -\pi(x)_v\pi(x)_u\ \ \ when\ \ u\neq v\\ \end{align*}$

$\begin{align*} {\partial \alpha_u \over \partial \lambda_{u,j}} = \frac{\partial }{\partial \lambda_{u,j}} \left [ \sum_{j=1}^n \lambda_{u,j}x_j \right ] = x_j \end{align*}$

综合一下，可得：

$\begin{align*} {\partial \pi(x)_v \over \partial \lambda_{u,j}} &= \frac{\partial \pi(x)_v}{\partial \alpha_u}\frac{\partial \alpha_u}{\partial \lambda_{u,j}}\\ &= \left\{\begin{matrix}\pi(x)_v(1-\pi(x)_u)x_j \ \ \ when\ \ u=v & & \\ -\pi(x)_v\pi(x)_ux_j\ \ \ when\ \ u\neq v & & \end{matrix}\right. \\&= A(u,v)\pi(x)_vx_j-\pi(x)_v\pi(x)_ux_j \end{align*}$

回到我们的需求第三条： $\pi(x^{(i)})_{y^{(i)}}$ tends to be large，可以依据最大似然函数：

$\begin{align*} \prod_{i=1}^m\pi(x^{(i)})_{y^{(i)}} \end{align*}$

等价的，可以写成如下形式：

$\begin{align*} f(\lambda)=\sum_{i=1}^mlog\left [ \pi(x^{(i)})_{y^{(i)}} \right ] \end{align*}$

希望求的 $f()$ 最大值，将 $f()$ 对所有的 $\lambda_{u,j}$ 求偏导，然后在偏导等于0求极值。

$\begin{align*} {\partial f(\lambda) \over \partial \lambda_{u,j}} &= {\partial \over \partial \lambda_{u,j}} \left [ \sum_{i=1}^m log\left [ \pi(x^{(i)})_{y^{(i)}} \right ] \right ]\\ &= \sum_{i=1}^m {1 \over \pi(x^{(i)})_{y^{(i)}}}\frac{\partial }{\partial \lambda_{u,j}}\left [ \pi(x^{(i)})_{y^{(i)}} \right ]\\ &= \sum_{i=1}^m {1 \over \pi(x^{(i)})_{y^{(i)}}} \left [ A(y^{(i)},u)\pi(x^{(i)})_{y^{(i)}}x^{(i)}_j-\pi(x^{(i)})_{y^{(i)}}\pi(x^{(i)})_ux^{(i)}_j \right ]\\ &= \sum_{i=1}^m A(y^{(i)},u)x^{(i)}_j-\sum_{i=1}^m\pi(x^{(i)})_{u}x^{(i)}_j \end{align*}$

对于二分类的LR模型，与梯度下降相比在符号上差了一个负号，是由于在这里是求的极大问题，另外，对于LR二分类问题，我们强制让 $\lambda_2$ 为零向量，同时我们只对参数 $\lambda_1$ 进行更新。

令偏导等于0得到：

$\begin{align*} \sum_{i=1}^m\pi(x^{(i)})_{u}x^{(i)}_j = \sum_{i=1}^m A(y^{(i)},u)x^{(i)}_j\ \ \ (for\ all\ u,j) \end{align*}$

上式表明，在所有样本中，类别为u的样本第j个特征的和等于所有样本第j个特征与其判别为类别u的概率乘积的和。

同时可以发现，为使上述等式成立。我们就是要寻找一个用最合适参数 $\lambda$ 刻画的模型 $\pi(x^{(i)})_u$ ，使其行为与经验先验 $A(y^{(i)},u)$ 十分相似。又称上式为'balance equations'。

参数 $\lambda$ 并没有显示地出现在上式中，在模型 $\pi(x^{(i)})_u$ 中，在某种意义上说结果只依赖于我们选择的那些特征，而与怎么用 $\lambda$ 刻画模型无关。（因此留给我们需要做的是特征工程，选择更好的特征。）

求参数 $\lambda(k*n)$ 可以选择多种方法，如梯度下降方法，牛顿法，拟牛顿法。或者用拉格朗日求优化问题，但直接求优化问题总是较为困难。

最大熵模型

不需要巧妙的猜测sigmoid函数的形式，假定我们希望平衡方程

$\begin{align*} \sum_{i=1}^m\pi(x^{(i)})_{u}x^{(i)}_j = \sum_{i=1}^m A(y^{(i)},u)x^{(i)}_j\ \ \ (for\ all\ u,j) \end{align*}$

成立，没有任何其他条件，推导出模型 $\pi()$ 的公式。

我们可以假定平衡方程成立。是因为我们假定了可以从训练数据中刻画出模型，即我们可以用经验先验去约束真实的概率分布。

从以下的简单条件开始：

$\pi(x)_v\geq0\ \ \ always$
$\sum_{u=1}^k\pi(x)_u= 1\ \ \ always$
$\begin{align*} \sum_{i=1}^m\pi(x^{(i)})_{u}x^{(i)}_j = \sum_{i=1}^m A(y^{(i)},u)x^{(i)}_j\ \ \ (for\ all\ u,j) \end{align*}$

这里对于 $\pi()$ 希望是个连续，平滑的，低复杂度的。在信息论中，最大熵 $\pi()$ 被定义为如下：

$\begin{align*} -\sum_{v=1}^k\sum_{i=1}^m \pi(x^{(i)})_vlog\left [ \pi(x^{(i)})_v \right ] \end{align*}$

这个公式不是凭空出来的，其背后有信息论基础。我们的优化问题就转为求解在上述三个约束条件下极大化上式的最优化问题。

求解约束问题的通用办法是引入拉格朗日函数转化为无约束问题：

$\begin{align*} L &= -\sum_{v=1}^k\sum_{i=1}^m\pi(x^{(i)})_v \log\left [ \pi(x^{(i)})_v \right ] \\ &+\sum_{i=1}^m \beta_i \left \{ \left [\sum_{v=1}^k \pi(x^{(i)})_v \right ]-1 \right \}\\ &+ \sum_{v=1}^k\sum_{j=1}^n\lambda_{v,j}\left \{ \sum_i^m \left [ \pi(x^{(i)})_vx^{(i)}_j-A(y^{(i)},v)x^{(i)}_j \right ]\right \} \end{align*}$

注：约束1 $\pi(x)_v\geq0\ \ \ always$ 并没有加入到拉格朗日函数中去，也没有必要，对于信息熵而言，其概率密度函数必然是大于0的，否则无法求解。

对L求偏导：

$\begin{align*} {\partial L \over \partial \pi(x^{(i)})_u} &= -\log\left [ \pi(x^{(i)})_u \right ]-1+\beta_i+\sum_{j=1}^n \lambda_{u,j}x^{(i)}_j\\ &= -\log\left [ \pi(x^{(i)})_u \right ]-1+\beta_i+\lambda_{u}x^{(i)} \end{align*}$

令其等于0，得到：

$\begin{align*} &-\log\left [ \pi(x^{(i)})_u \right ]-1+\beta_i+\lambda_{u}x^{(i)} = 0\\ \Rightarrow \ &\log\left [ \pi(x^{(i)})_u \right ]=\lambda_ux^{(i)}+\beta_i-1\\ \Rightarrow \ &\pi(x^{(i)})_u = e^{\lambda_ux^{(i)}+\beta_i-1} \end{align*}$

有：

$\begin{align*} \sum_{u=1}^k\pi(x^{(i)})_u = \sum_{u=1}^ke^{\lambda_ux^{(i)}+\beta_i-1} \end{align*}$

得到：

$\begin{align*} e^{\beta_i}={1\over \sum_{u=1}^ke^{\lambda_ux^{(i)}-1}} \end{align*}$

将上式代入往上数第三式（这边的公式编号还不会用。。。）

$\begin{align*} \pi(x^{(i)})_u=e^{\lambda_ux^{(i)}+\beta_i-1}={e^{\lambda_ux^{(i)}}\over e\cdot e^{-\beta_i}}={e^{\lambda_ux^{(i)}}\over \sum_{u=1}^ke^{\lambda_ux^{(i)}}} \end{align*}$

那么就证明了，我们是如何从已知训练样本数据根据最大熵模型推导出LR回归。

小结

逻辑回归跟最大熵模型没有本质差别。逻辑回归是最大熵相应类别为二类时的特殊情况

指数簇分布的最大熵等价于其指数形式的最大似然。

二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然；
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。

最大熵与逻辑回归的等价性