【机器学习】交叉熵函数的使用及推导

前言

说明：本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。 minist手写数字识别就是用交叉熵作为代价函数。

1.从方差代价函数说起

代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：

其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+b 】。

在训练神经网络过程中，我们通过梯度下降算法来更新w和b，因此需要计算代价函数对w和b的导数：

然后更新w、b：

w <—— w - η* ∂C/∂w = w - η * a *σ′(z)

b <—— b - η* ∂C/∂b = b - η * a * σ′(z)

因为sigmoid函数的性质，导致σ′(z)在z取大部分值时会很小（如下图标出来的两端，几近于平坦），这样会使得w和b更新非常慢（因为η * a * σ′(z)这一项接近于0）。

另外对于逻辑回归问题如果使用均方误差作为代价函数，则会最后优化函数不是凸函数，而是一个震荡函数，会存在很多局部最小值，很难得到全局最优。

交叉熵损失函数

首先，我们二话不说，先放出交叉熵的公式：

J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i))),

以及J(θ)对J(θ)对参数θθ的偏导数（用于诸如梯度下降法等优化算法的参数更新），如下：

∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))xj(i)

但是在大多论文或数教程中，也就是直接给出了上面两个公式，而未给出推导过程，而且这一过程并不是一两步就可以得到的，这就给初学者造成了一定的困惑，所以我特意在此详细介绍了它的推导过程，跟大家分享。

我们一共有m组已知样本，(x(i),y(i))(x(i),y(i))表示第 ii 组数据及其对应的类别标记。其中x(i)=(1,x(i)1,x(i)2,...,x(i)p)Tx(i)=(1,x1(i),x2(i),...,xp(i))T为p+1维向量（考虑偏置项），y(i)y(i)则为表示类别的一个数：

logistic回归（是非问题）中，y(i)y(i)取0或者1；
softmax回归（多分类问题）中，y(i)y(i)取1,2…k中的一个表示类别标号的一个数（假设共有k类）。

这里，只讨论logistic回归，输入样本数据x(i)=(1,x(i)1,x(i)2,...,x(i)p)Tx(i)=(1,x1(i),x2(i),...,xp(i))T，模型的参数为θ=(θ0,θ1,θ2,...,θp)Tθ=(θ0,θ1,θ2,...,θp)T,因此有

θTx(i):=θ0+θ1x(i)1+⋯+θpx(i)p.θTx(i):=θ0+θ1x1(i)+⋯+θpxp(i).

假设函数（hypothesis function）定义为：

hθ(x(i))=11+e−θTx(i)hθ(x(i))=11+e−θTx(i)

.
因为Logistic回归问题就是0/1的二分类问题，可以有

P(y^(i)=1|x(i);θ)=hθ(x(i))P(y^(i)=1|x(i);θ)=hθ(x(i))

P(y^(i)=0|x(i);θ)=1−hθ(x(i))P(y^(i)=0|x(i);θ)=1−hθ(x(i))

现在，我们不考虑“熵”的概念，根据下面的说明，从简单直观角度理解，就可以得到我们想要的损失函数：我们将概率取对数，其单调性不变，有

logP(y^(i)=1|x(i);θ)=loghθ(x(i))=log11+e−θTx(i),log⁡P(y^(i)=1|x(i);θ)=log⁡hθ(x(i))=log⁡11+e−θTx(i),

logP(y^(i)=0|x(i);θ)=log(1−hθ(x(i)))=loge−θTx(i)1+e−θTx(i).log⁡P(y^(i)=0|x(i);θ)=log⁡(1−hθ(x(i)))=log⁡e−θTx(i)1+e−θTx(i).

那么对于第ii组样本，假设函数表征正确的组合对数概率为：

I{y(i)=1}logP(y^(i)=1|x(i);θ)+I{y(i)=0}logP(y^(i)=0|x(i);θ)=y(i)logP(y^(i)=1|x(i);θ)+(1−y(i))logP(y^(i)=0|x(i);θ)=y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))I{y(i)=1}log⁡P(y^(i)=1|x(i);θ)+I{y(i)=0}log⁡P(y^(i)=0|x(i);θ)=y(i)log⁡P(y^(i)=1|x(i);θ)+(1−y(i))log⁡P(y^(i)=0|x(i);θ)=y(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

其中，I{y(i)=1}I{y(i)=1}和I{y(i)=0}I{y(i)=0}为示性函数（indicative function），简单理解为{ }内条件成立时，取1，否则取0，这里不赘言。
那么对于一共mm组样本，我们就可以得到模型对于整体训练样本的表现能力：

∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

由以上表征正确的概率含义可知，我们希望其值越大，模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数（Loss function）或者代价函数（Cost function）的，而且我们希望损失函数越小越好。由这两个矛盾，那么我们不妨领代价函数为上述组合对数概率的相反数：

J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

上式即为大名鼎鼎的交叉熵损失函数。(说明：如果熟悉“信息熵“的概念E[−logpi]=−∑mi=1pilogpiE[−log⁡pi]=−∑i=1mpilog⁡pi，那么可以有助理解叉熵损失函数）

交叉熵损失函数的求导

这步需要用到一些简单的对数运算公式，这里先以编号形式给出，下面推导过程中使用特意说明时都会在该步骤下脚标标出相应的公式编号，以保证推导的连贯性。
①  logab=loga−logb  log⁡ab=log⁡a−log⁡b
②  loga+logb=log(ab)  log⁡a+log⁡b=log⁡(ab)
③  a=logea  a=log⁡ea
另外，值得一提的是在这里涉及的求导均为矩阵、向量的导数（矩阵微商），这里有一篇教程总结得精简又全面，非常棒，推荐给需要的同学。
下面开始推导：
交叉熵损失函数为：

J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))J(θ)=−1m∑i=1my(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))

其中，

loghθ(x(i))=log11+e−θTx(i)=−log(1+e−θTx(i)) ,log(1−hθ(x(i)))=log(1−11+e−θTx(i))=log(e−θTx(i)1+e−θTx(i))=log(e−θTx(i))−log(1+e−θTx(i))=−θTx(i)−log(1+e−θTx(i))①③ .log⁡hθ(x(i))=log⁡11+e−θTx(i)=−log⁡(1+e−θTx(i)) ,log⁡(1−hθ(x(i)))=log⁡(1−11+e−θTx(i))=log⁡(e−θTx(i)1+e−θTx(i))=log⁡(e−θTx(i))−log⁡(1+e−θTx(i))=−θTx(i)−log⁡(1+e−θTx(i))①③ .

由此，得到

J(θ)=−1m∑i=1m[−y(i)(log(1+e−θTx(i)))+(1−y(i))(−θTx(i)−log(1+e−θTx(i)))]=−1m∑i=1m[y(i)θTx(i)−θTx(i)−log(1+e−θTx(i))]=−1m∑i=1m[y(i)θTx(i)−logeθTx(i)−log(1+e−θTx(i))]③=−1m∑i=1m[y(i)θTx(i)−(logeθTx(i)+log(1+e−θTx(i)))]②=−1m∑i=1m[y(i)θTx(i)−log(1+eθTx(i))]J(θ)=−1m∑i=1m[−y(i)(log⁡(1+e−θTx(i)))+(1−y(i))(−θTx(i)−log⁡(1+e−θTx(i)))]=−1m∑i=1m[y(i)θTx(i)−θTx(i)−log⁡(1+e−θTx(i))]=−1m∑i=1m[y(i)θTx(i)−log⁡eθTx(i)−log⁡(1+e−θTx(i))]③=−1m∑i=1m[y(i)θTx(i)−(log⁡eθTx(i)+log⁡(1+e−θTx(i)))]②=−1m∑i=1m[y(i)θTx(i)−log⁡(1+eθTx(i))]

这次再计算J(θ)J(θ)对第jj个参数分量θjθj求偏导:

∂∂θjJ(θ)=∂∂θj(1m∑i=1m[log(1+eθTx(i))−y(i)θTx(i)])=1m∑i=1m[∂∂θjlog(1+eθTx(i))−∂∂θj(y(i)θTx(i))]=1m∑i=1m⎛⎝x(i)jeθTx(i)1+eθTx(i)−y(i)x(i)j⎞⎠=1m∑i=1m(hθ(x(i))−y(i))x(i)j∂∂θjJ(θ)=∂∂θj(1m∑i=1m[log⁡(1+eθTx(i))−y(i)θTx(i)])=1m∑i=1m[∂∂θjlog⁡(1+eθTx(i))−∂∂θj(y(i)θTx(i))]=1m∑i=1m(xj(i)eθTx(i)1+eθTx(i)−y(i)xj(i))=1m∑i=1m(hθ(x(i))−y(i))xj(i)

这就是交叉熵对参数的导数：

∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j

from：https://blog.csdn.net/jasonzzj/article/details/52017438

：https://blog.csdn.net/u012162613/article/details/44239919