Softmax函数交叉熵及其求导

1. 简介

$Softmax$ 函数

$Softmax$ 函数在神经网络分类是十分常用的函数，如下所示，在神经元output layer中，可以输出一个 $R^{4}$ 维度的向量，来进行分类，例如输出层为向量 $O=[ 0.2,0.1,0.4,0.3 ]$ , 可根据向量中元素大小（元素之和为1）来判断该输入（可以是图片，也可以是文字）属于哪一类，而在这种分类的情况中， $Softmax$ 函数就起到了十分重要的作用。

这里写图片描述

$Softmax$ 函数的公式为： $a_{i}=\frac{e^{z_{i}}}{\sum^{n}_{j=1}e^{z_{j}}}$

其中， $a_{i}$ 为第 $i$ 个神经元经过 $Softmax$ 函数得到的值， $z_{i}$ 为第 $i$ 个神经元的输出值，其计算公式为 $z_{i}=W_{i}*x+ b$ $(W_{i}为权重矩阵W_{ij} 的第i行)。$

代价函数交叉熵

为了计算损失函数，我们使用交叉熵代价函数，有 $Loss = -\sum^{n}_{i}y_{i}loga_{i}$

其中 $y_{i}$ 代表第 $a_{i}$ 个输出的真实值。

2. Softmax函数交叉熵的求导

1）
对于Softmax函数的求导，用得最多的应该是链式法则，对于链式法则，举个例子如下：

设我们有函数 $g(f(x))$ , 则 $\frac{\partial{ g(f(x))}}{\partial{x}} = \frac{\partial{ g(f(x))}}{\partial{f(x)}}$ $\frac{\partial{ f(x)}}{\partial{x}}$ ，这就是链式法则。

2）
对于交叉熵函数求导，首先，我们要求导的是交叉熵对神经元输出的梯度： $\frac{\partial{L}}{\partial{z_{i}}}$

根据链式法则，我们有： $\frac{\partial{L}}{\partial{z_{i}}} = \frac{\partial{L}}{\partial{a_{j}}}$ $\frac{\partial{a_{j}}}{\partial{z_{i}}}$

其中, 使用 $a_{j}$ 是因为对 $Softmax$ 函数包含了所有神经网络输出的和，即 $a_{i} = \frac{e^{z_{i}}}{\sum^{n}_{j=1}e^{z_{j}}}$ ，所以，就算我们不是求交叉熵对 $a_{j}$ 的梯度，但是 $a_{j}$ 依旧包含了 $a_{i}$ 的元素。

总的来说就是，由于 $Softmax$ 函数的特殊性，对于 $a_{j}$ 第 $j$ 个神经元的输出，其中也包含了 $a_{i}$ 中的元素。

3）
对于求 $\frac{\partial{L}}{\partial{z_{i}}} = \frac{\partial{L}}{\partial{a_{j}}}$ $\frac{\partial{a_{j}}}{\partial{z_{i}}}$ ，可先求其前半部分 $\frac{\partial{L}}{\partial{a_{j}}}$ ：

$\frac{\partial{L}}{\partial{a_{j}}} = \frac{\partial{ (-\sum^{n}_{j}y_{j}loga_{j}) }}{\partial{a_{j}}} = -\sum^{n}_{j}\frac{y_{j}}{a_{j}}$

当 $j=i$ 时， $\frac{\partial{L}}{\partial{a_{i}}} = -\frac{y_{i}}{a_{i}}$
当 $j \neq i$ 时， $\frac{\partial{L}}{\partial{a_{j}}} = -\sum_{j\neq i}^{n}\frac{y_{j}}{a_{j}}$

（4）

公式 $\frac{\partial{L}}{\partial{z_{i}}} = \frac{\partial{L}}{\partial{a_{j}}}$ $\frac{\partial{a_{j}}}{\partial{z_{i}}}$ 的第二部分: $\frac{\partial{a_{j}}}{\partial{z_{i}}}$ , 需要分俩种情况讨论，即 $j=i$ 和 $j \neq i$ 俩种情况。

对于 $j=i$ ,

\frac{\partial a_{i}}{\partial z_{i}} = \frac{\partial \frac{e^{z_{i}}}{\sum_{j = 1}^{n} e^{z_{j}}}}{\partial z_{i}} = \frac{e^{z_{i}} \sum_{j = 1}^{n} e^{z_{j}} - (e^{z_{i}})^{2}}{(\sum_{j = 1}^{n} e^{z_{j}})^{2}} = \frac{e^{z_{i}}}{\sum_{j = 1}^{n} e^{z_{j}}} - (\frac{e^{z_{i}}}{\sum_{j = 1}^{n} e^{z_{j}}})^{2} = a_{i} - a_{i}^{2} = a_{i} (1 - a_{i})

$\frac{\partial{a_{i}}}{\partial{z_{i}}} = \frac{\partial{ \frac{e^{z_{i}}}{\sum^{n}_{j=1}e^{z_{j}}} }}{\partial{z_{i}}} = \frac{e^{z_{i}}\sum^{n}_{j=1}e^{z_{j}} - (e^{z_{i}})^{2}}{(\sum^{n}_{j=1}e^{z_{j}})^{2}}=\frac{e^{z_{i}}}{\sum^{n}_{j=1}e^{z_{j}}}-(\frac{e^{z_{i}}}{\sum^{n}_{j=1}e^{z_{j}}})^{2}=a_{i}-a_{i}^{2}=a_{i}(1-a_{i})$

对于 $j \neq i,$

\frac{\partial a_{j}}{\partial z_{i}} = \frac{\partial \frac{e^{z_{j}}}{\sum_{j = 1}^{n} e^{z_{j}}}}{\partial z_{i}} = \frac{- e^{z_{j}} e^{z_{i}}}{(\sum_{j = 1}^{n} e^{z_{j}})^{2}} = - \frac{e^{z_{j}}}{\sum_{j = 1}^{n} e^{z_{j}}} \frac{e^{z_{i}}}{\sum_{j = 1}^{n} e^{z_{j}}} = - a_{j} a_{i}

$\frac{\partial{a_{j}}}{\partial{z_{i}}} = \frac{\partial{ \frac{e^{z_{j}}}{\sum^{n}_{j=1}e^{z_{j}}} }}{\partial{z_{i}}} = \frac{-e^{z_{j}}e^{z_{i}}}{(\sum^{n}_{j=1}e^{z_{j}})^{2}}=-\frac{e^{z_{j}}}{\sum^{n}_{j=1}e^{z_{j}}}\frac{e^{z_{i}}}{\sum^{n}_{j=1}e^{z_{j}}}=-a_{j}a_{i}$

因此，对于第二部分的求导，我们有 $\frac{\partial{a_{j}}}{\partial{z_{i}}}=a_{i}(1-a_{i})+\sum_{j\neq i}^{n}-a_{j}a_{i}$

5）
则对于 $\frac{\partial{L}}{\partial{z_{i}}} = \frac{\partial{L}}{\partial{a_{j}}}$ $\frac{\partial{a_{j}}}{\partial{z_{i}}}$ ，我们有：

$\frac{\partial{L}}{\partial{z_{i}}}$

$= \frac{\partial{L}}{\partial{a_{j}}}\frac{\partial{a_{j}}}{\partial{z_{i}}}$

$= -\frac{y_{i}}{a_{i}}(a_{i}(1-a_{i})) + \sum^{n}_{j \neq i}\frac{y_{j}}{a_{j}}a_{j}a_{i}$

$= -y_{i}(1-a_{i}) + \sum^{n}_{j \neq i}y_{j}a_{i}$

$= -y_{i}+a_{i}y_{i}+\sum^{n}_{j \neq i}y_{j}a_{i}$

$=-y_{i}+a_{i}\sum_{j=1}^{n} y_{j}$

由于对真实值，我们知道 $y_{j}$ 为第 $i$ 个神经元期望输出的值，一般而言， $\sum_{j=1}^{n} y_{j}=1$ , 故对于这种通过 $Softmax$ 函数的输出来确定其分类的，只有一个类别会是1，因此有代价函数对第 $i$ 个神经元的输出 $z_{i}$ 的梯度为：

\frac{\partial L}{\partial z_{i}} = - y_{i} + a_{i}

$\frac{\partial{L}}{\partial{z_{i}}} = -y_{i} + a_{i}$