表达式

二分类

在二分的情况下，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为p和1-p。此时表达式为：

$\begin{align}J = −[y\cdot log(p)+(1−y)\cdot log(1−p)]\end{align} \\$

其中：

y——表示样本的label，正类为1，负类为0
p——表示样本预测为正的概率

多分类

多分类的情况实际上就是对二分类的扩展：

$\begin{align}J = -\sum_{c=1}^My_{c}\log(p_{c})\end{align} \\$

其中：

M——类别的数量；
y——指示变量（0或1）,如果该类别和样本的类别相同就是1，否则是0；
p——对于观测样本属于类别c的预测概率。

函数性质

可以看出，该函数是凸函数，求导时能够得到全局最优值。

导函数性质

交叉熵损失函数经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损失函数，此外，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和softmax函数一起出现。

我们用神经网络最后一层输出的情况，来看一眼整个模型预测、获得损失和学习的流程：

神经网络最后一层得到每个类别的得分scores；
该得分经过softmax转换为概率输出；
模型预测的类别概率输出与真实类别的one hot形式进行cross entropy损失函数的计算。

下面，我们来推导一下整个求导公式，我们将求导分成三个过程，即拆成三项偏导的乘积：

$\frac{\partial J}{\partial w_i}=\frac{\partial J}{\partial p_i}\cdot \frac{\partial p_i}{\partial score_i}\cdot \frac{\partial score_i}{\partial w_i} \\$

计算第一项： $\frac{\partial J}{\partial p_i}$

$\begin{align} \frac{\partial J}{\partial p_i} &= \frac{\partial −[ylog(p)+(1−y)log(1−p)]}{\partial p_i} \\ &= -\frac{\partial y_ilogp_i}{\partial p_i}-\frac{\partial (1-y_i)log(1-p_i)}{\partial p_i} \\ &= -\frac{y_i}{p_i}-[(1-y_i)\cdot \frac{1}{1-p_i}\cdot (-1)] \\ &= -\frac{y_i}{p_i}+\frac{1-y_i}{1-p_i} \ \end{align} \\$

计算第二项：

$\frac{\partial p_i}{\partial score_i} \\$

这一项要计算的是softmax函数对于score的导数，我们先回顾一下分数求导的公式：

$f(x) = \frac{g(x)}{h(x)}=\frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)} \\$

考虑k等于i的情况：

$\begin{align} \frac{\partial p_i}{\partial score_i} &= \frac{({e^{y_i}})'\cdot (\sum_ie^{y_i})-e^{y_i}\cdot {(\sum_j e^{y_i})}'}{(\sum_je^{y_i})^2} \\ &= \frac{e^{y_i}\cdot \sum_ie^{y_i}-{(e^{y_i})}^2}{(\sum_je^{y_i})^2} \\ &= \frac{e^{y_i}}{\sum_je^{y_i}} - \frac{(e^{y_i})^2}{(\sum_je^{y_i})^2} \\ &= \frac{e^{y_i}}{\sum_je^{y_i}}\cdot (1 - \frac{e^{y_i}}{\sum_je^{y_i}}) \\ &= \sigma(y_i)(1-\sigma(y_i)) \ \end{align} \\$

考虑k不等于i的情况：

$\begin{align} \frac{\partial p_k}{\partial score_i} &= \frac{(e^{y_k})'\cdot (\sum_ie^{y_i})-e^{y_i}\cdot {(\sum_j e^{y_i})}'}{(\sum_je^{y_i})^2} \\ &= \frac{0\cdot \sum_ie^{y_i}-(e^{y_i})\cdot (e^{y_k})}{(\sum_je^{y_i})^2} \\ &= -\frac{e^{y_i}\cdot e^{y_k}}{(\sum_je^{y_i})^2} \\ &= -\frac{e^{y_i}}{\sum_je^{y_i} }\cdot \frac{e^{y_k} }{\sum_je^{y_i}} \\ &= -\sigma(y_i)\cdot \sigma(y_k) \\ &= \sigma(y_k)\cdot (1-\sigma(y_i)) \\ \end{align} \\$

综上可得softmax损失函数的求导结果：

$\begin{split}\frac{\partial p_k}{\partial score_i}=\begin{cases} \sigma(y_i)(1-\sigma(y_i)) & \text{$if\ k=i$} \\ \sigma(y_k)\cdot (1-\sigma(y_i)) & \text{$if\ k \neq i$}\end{cases}\end{split} \\$

则可统一写成：

$\frac{\partial p_i}{\partial score_i}=\sigma(y_i)(1-\sigma(y_i))\\$

计算第三项：

$\frac{\partial score_i}{\partial w_i \\}$

一般来说，scores是输入的线性函数作用的结果，所以有：

$\frac{\partial score_i}{\partial w_i}=x_i\\$

计算结果

$\frac{\partial J}{\partial w_i}$

$\begin{align} \frac{\partial J}{\partial w_i} &= \frac{\partial J}{\partial p_i}\cdot \frac{\partial p_i}{\partial score_i}\cdot \frac{\partial score_i}{\partial w_i} \\ &= [-\frac{y_i}{\sigma(y_i)} + \frac{1-y_i}{1-\sigma(y_i)}]\cdot \sigma(y_i)(1-\sigma(y_i))\cdot x_i \\ &= [-\frac{y_i}{\sigma(y_i)}\cdot \sigma(y_i)\cdot (1-\sigma(y_i))+\frac{1-y_i}{1-\sigma(y_i)}\cdot \sigma(y_i)\cdot (1-\sigma(y_i))]\cdot x_i \\ &= [-y_i+y_i\cdot \sigma(y_i)+\sigma(y_i)-y_i\cdot \sigma(y_i)]\cdot x_i \\ &= [\sigma(y_i)-y_i]\cdot x_i \\ \end{align} \\$

可以看到，我们得到了一个非常漂亮的结果，所以，使用交叉熵损失函数，不仅可以很好的衡量模型的效果，又可以很容易的的进行求导计算。

优点

在用梯度下降法做参数更新的时候，模型学习的速度取决于两个值：一、学习率；二、偏导值。其中，学习率是我们需要设置的超参数，所以我们重点关注偏导值。从上面的式子中，我们发现，偏导值的大小取决于 $x_i$ 和 $[\sigma(y_i)-y_i]$ ，我们重点关注后者，后者的大小值反映了我们模型的错误程度，该值越大，说明模型效果越差，但是该值越大同时也会使得偏导值越大，从而模型学习速度更快。所以，使用逻辑函数得到概率，并结合交叉熵当损失函数时，在模型效果差的时候学习速度比较快，在模型效果好的时候学习速度变慢。