引言

在多分类问题中，一般会把输出结果传入到softmax函数中，得到最终结果。并且用交叉熵作为损失函数。本来就来分析下以交叉熵为损失函数的情况下，softmax如何求导。

对softmax求导

softmax函数为:

$y_i = \frac{e^{z_i}}{\sum_{k=1}^K e^{z_k}}$

这里 $K$ 是类别的总数，接下来求 $y_i$ 对某个输出 $z_j$ 的导数,
$\frac{\partial y_i}{\partial z_j} = \frac{\partial \frac{e^{z_i}}{\sum_{k=1}^K e^{z_k}}}{\partial z_j}$

这里要分两种情况,分别是 $i=j$ 与 $i \neq j$ 。当 $i=j$ 时, $e^{z_i}$ 对 $z_j$ 的导数为 $e^{z_i}$ ，否则当 $i \neq j$ 时，导数为 $0$ 。

当 $i = j$ ，
$\frac{\partial y_i}{\partial z_j} = \frac{e^{z_i}\cdot \sum_{k=1}^K e^{z_k} - e^{z_i} \cdot e^{z_j} }{(\sum_{k=1}^m e^{z_k})^2} \\ = \frac{e^{z_i}}{\sum_{k=1}^m e^{z_k}} - \frac{e^{z_i}}{\sum_{k=1}^m e^{z_k}} \cdot \frac{e^{z_j}}{\sum_{k=1}^m e^{z_k}} \\ = y_i - y_i^2 = y_i(1 - y_i)$

当 $i \neq j$ ，
$\frac{\partial y_i}{\partial z_j} = \frac{0 \cdot \sum_{k=1}^K e^{z_k} - e^{z_i} \cdot e^{z_j}}{(\sum_{k=1}^m e^{z_k})^2} \\ = - \frac{e^{z_i}}{\sum_{k=1}^m e^{z_k}} \cdot \frac{e^{z_j}}{\sum_{k=1}^m e^{z_k}} \\ = - y_i y_j$

对cross-entropy求导

损失函数 $L$ 为:

$L = -\sum_k \hat y_k \log y_k$

其中 $\hat y_k$ 是真实类别，相当于一个常数，接下来求 $L$ 对 $z_j$ 的导数

$\frac{\partial L}{\partial z_j} = \frac{\partial -(\sum_k \hat y_k \log y_k)}{z_j} = \frac{\partial -(\sum_k \hat y_k \log y_k)}{\partial y_k} \frac{\partial y_k}{\partial z_j} \\ = -\sum_k \hat y_k \frac{1}{y_k} \frac{\partial y_k}{z_j} \\ = \left(-\hat y_k \cdot y_k(1 - y_k) \frac{1}{y_k} \right)_{k=j} - \sum_{k \neq j} \hat y_k \frac{1}{y_k} (-y_ky_j) \\ = -\hat y_j (1 - y_j) - \sum_{k \neq j} \hat y_k (-y_j) \\ = -\hat y_j + \hat y_j y_j + \sum_{k \neq j} \hat y_k (y_j) \\ = -\hat y_j + \sum_{k} \hat y_k (y_j) \\ = -\hat y_j + y_j \\ = y_j -\hat y_j$

这里用到了 $\sum_{k} \hat y_k = 1$

可以看到，求导结果非常简单，如果不推倒都不敢信。

Softmax与Cross-entropy的求导

引言

对softmax求导

对cross-entropy求导

猜你喜欢