TensorFlow可微分编程实践3---交叉熵与代价函数微分

在上篇博文中，我们讲述怎样处理第 $l-1$ 层到第 $l$ 层的前向传输和反向求导，我们还没有讲述关于输出层的处理技术。在这里，我们还以MNIST手写数字识别为例，网络计算图如下所示：
这里写图片描述
当我们计算出输出层的输出 $\boldsymbol{y} \in R^{10}$ 时，表示输入图像 $\boldsymbol{x}$ 是0~9这10个数字的概率。此时输入图像 $\boldsymbol{x}$ 对应的正确结果 $\hat{\boldsymbol{y}} \in R^{10}$ ，假设该数为 $r$ ，则 $\hat{y}_r=1$ ，其余维0，即 $\hat{\boldsymbol{y}} =\{0, 0, ..., 1, ..., 0\}$ ，其中主1的是第 $r$ 维。
我们首先处理损失函数，这里我们假设不考虑添加调整项的情况，我们的代价函数取交叉熵（cross entropy）函数，根据交叉熵定义：

\begin{matrix} (1) & H (p, q) = E_{p} (- \log q) = H (p) + K L (p ‖ q) \end{matrix}

$\begin{equation} H(p, q)=E_p(-\log{q})=H(p)+KL(p \Vert q) \end{equation}$
对离散值情况，交叉熵（cross entropy）可以表示为：

\begin{matrix} (2) & H (p, q) = - \sum_{k = 1}^{K} p (k) \log q (k) \end{matrix}

$\begin{equation} H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)} \end{equation}$
在这里我们设正确值

\hat{y}

$\hat{\boldsymbol{y}}$ 的分布为p，而计算值

y = a^{2}

$\boldsymbol{y}=\boldsymbol{a}^2$ 的分布为q，假设共有

K = 10

$K=10$ 个类别，并且假设第

r

$r$ 维为正确数字，则代价函数的值为：

\begin{matrix} (3) & C = H (p, q) = - \sum_{k = 1}^{K} p (k) \log q (k) = - (0 * \log y_{1} + 0 * \log y_{2} + . . . + 1 * \log y_{r} + . . . + 0 * \log y_{10}) = - \log y_{r} \end{matrix}

$\begin{equation} C=H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)}=-(0*\log{y_1}+0*\log{y_2}+...+1*\log{y_r}+...+0*\log{y_{10}}) \\ =-\log{y_r} \end{equation}$
我们可以将代价函数值视为

R^{1}

$R^{1}$ 的向量，我们对

y

$\boldsymbol{y}$ 求偏导，根据Jacobian矩阵定义，结果为

R^{1 \times N_{2}} = R^{1 \times 10}

$R^{1 \times N_2}=R^{1 \times 10}$ 的1行10列的矩阵。结果如下所示：

\begin{matrix} (4) & \frac{\partial C}{\partial y} = [\begin{matrix} 0 & 0 & . . . & - \frac{1}{y_{r}} & . . . & 0 \end{matrix}] \end{matrix}

$\begin{equation} \frac{\partial{C}}{\partial{y}}=\begin{bmatrix} 0 & 0 & ... & -\frac{1}{y_r} & ... & 0 \end{bmatrix} \end{equation}$
其只有正确数字对应的第r维不为0，其余均为零。
接下来我们来求：

\frac{\partial y}{\partial z^{2}}

$\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}$ ，因为

y

$\boldsymbol{y}$ 和

a^{2}

$\boldsymbol{a}^2$ 均为向量，可以直接使用Jacobian矩阵定义得：

\begin{matrix} (5) & \frac{\partial y}{\partial z^{2}} = [\begin{matrix} \frac{\partial y_{1}}{\partial z_{1}^{2}} & \frac{\partial y_{1}}{\partial z_{2}^{2}} & . . . & \frac{\partial y_{1}}{\partial z_{N_{2}}^{2}} \\ \frac{\partial y_{2}}{\partial z_{1}^{2}} & \frac{\partial y_{2}}{\partial z_{2}^{2}} & . . . & \frac{\partial y_{2}}{\partial z_{N_{2}}^{2}} \\ . . . & . . . & . . . & . . . \\ \frac{\partial y_{N_{2}}}{\partial z_{1}^{2}} & \frac{\partial y_{N_{2}}}{\partial z_{2}^{2}} & . . . & \frac{\partial y_{N_{2}}}{\partial z_{N_{2}}^{2}} \end{matrix}] \end{matrix}

$\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}=\begin{bmatrix} \frac{\partial{y_1}}{\partial{z^2_1}} & \frac{\partial{y_1}}{\partial{z^2_2}} & ... & \frac{\partial{y_1}}{\partial{z^2_{N_2}}} \\ \frac{\partial{y_2}}{\partial{z^2_1}} & \frac{\partial{y_2}}{\partial{z^2_2}} & ... & \frac{\partial{y_2}}{\partial{z^2_{N_2}}} \\ ... & ... &... &... \\ \frac{\partial{y_{N_2}}}{\partial{z^2_1}} & \frac{\partial{y_{N_2}}}{\partial{z^2_2}} & ... & \frac{\partial{y_{N_2}}}{\partial{z^2_{N_2}}} \\ \end{bmatrix} \end{equation}$
接下来

\frac{\partial z^{2}}{\partial W^{2}}

$\frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}$ 、

\frac{\partial z^{2}}{\partial a^{1}}

$\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{a}^1}}$ 、

\frac{\partial z^{2}}{\partial b^{2}}

$\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{b}^2}}$ 就是上一篇博文中讲述的内容。这里我们简单讲解下代价函数和代价函数反向求导的问题。代码如下所示：

@tf.custom_gradient
def cross_entropy(y, y_):
    # 找出y_中不等于0的下标值
    idx = np.nonzero(y_)[0][0]
    def grad_fn(dy):
        grad_C = np.zeros(y.shape[0])
        grad_C[idx] = - 1.0 / y[idx]
        return tf.constant(grad_C)
    return -math.log(y[idx]), grad_fn

def test003(args={}):
    tf.enable_eager_execution()
    tfe = tf.contrib.eager
    print('代价函数求导...')
    y = np.zeros((10))
    for idx in range(10):
        y[idx] = 0.01
    y[2] = 0.31
    y[3] = 0.11
    y[8] = 0.21
    y[1] = 0.11
    y[4] = 0.21
    y_ = np.array([0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0])
    print('y:{0}'.format(y))
    print('y_:{0}'.format(y_))
    C = cross_entropy(y, y_)
    print('代价函数值：{0}'.format(C.numpy()))
    grad_C1 = tfe.gradients_function(cross_entropy)
    pC_py = grad_C1(y, y_)
    print('pC_py:{0}'.format(pC_py[0].numpy()))

运行结果如下所示：
这里写图片描述
在求 $\frac{\partial{\boldsymbol{y}^2}}{\partial{\boldsymbol{z}^2}}$ 时，根据我们的定义，输出层采用的是交叉熵（Cross Entropy）函数，形式为：

\begin{matrix} (3.3.001) & y_{i} = \frac{e^{z_{i}^{2}}}{\sum_{k = 1}^{N_{2}} e^{z_{k}^{2}}} \end{matrix}

$\begin{equation} \tag{3.3.001} y_i=\frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \end{equation}$
下面我们来求

\frac{\partial y_{i}}{\partial z_{j}^{2}}

$\frac{\partial{y_i}}{\partial{z^2_j}}$ ，我们分为

i \neq j

$i \neq j$ 和

i = j

$i=j$ 两种情况来讨论。
当

i = j

$i = j$ 时：

\begin{matrix} (3.3.002) & \frac{\partial y_{i}}{\partial z_{i}^{2}} = \frac{\partial}{\partial z_{i}^{2}} (\frac{e^{z_{i}^{2}}}{\sum_{k = 1}^{N_{2}} e^{z_{k}^{2}}}) = \frac{e^{z_{i}^{2}}}{\sum_{k = 1}^{N_{2}} e^{z_{k}^{2}}} - (\frac{e^{z_{i}^{2}}}{\sum_{k = 1}^{N_{2}} e^{z_{k}^{2}}})^{2} \end{matrix}

$\begin{equation} \tag{3.3.002} \frac{\partial{y_i}}{\partial{z^2_i}}=\frac{\partial{}}{\partial{z^2_i}}\bigg( \frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \bigg)=\frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}}-\bigg( \frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \bigg)^2 \end{equation}$
当

i \neq j

$i \neq j$ 时：

\begin{matrix} (3.3.002) & \frac{\partial y_{i}}{\partial z_{j}^{2}} = \frac{\partial}{\partial z_{j}^{2}} (\frac{e^{z_{i}^{2}}}{\sum_{k = 1}^{N_{2}} e^{z_{k}^{2}}}) = - \frac{e^{z_{i}^{2}} e^{z_{j}^{2}}}{(\sum_{k = 1}^{N_{2}} e^{z_{k}^{2}})^{2}} \end{matrix}

$\begin{equation} \tag{3.3.002} \frac{\partial{y_i}}{\partial{z^2_j}}=\frac{\partial{}}{\partial{z^2_j}}\bigg( \frac{e^{z^2_i}}{\sum_{k=1}^{N_2}e^{z^2_k}} \bigg)=-\frac{e^{z^2_i}e^{z^2_j}}{(\sum_{k=1}^{N_2}e^{z^2_k})^2} \end{equation}$
按照上面的公式，我们可以求出

\frac{\partial y}{\partial z^{2}} \in R^{10 \times 10}

$\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}} \in R^{10 \times 10}$ 的方阵。
根据定义有：

\begin{matrix} (3.3.003) & \frac{\partial C}{\partial W^{2}} = \frac{\partial C}{\partial y} \cdot \frac{\partial y}{\partial z^{2}} \cdot \frac{\partial z^{2}}{\partial W^{2}} \end{matrix}

$\begin{equation} \tag{3.3.003} \frac{\partial{C}}{\partial{W^2}}=\frac{\partial{C}}{\partial{\boldsymbol{y}}} \cdot \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}} \cdot \frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}} \end{equation}$
其维数为

R^{1 \times 10} \times R^{10 \times 10} \times R^{10 \times 10 \times 512} = R^{1 \times 10 \times 512}

$R^{1 \times 10} \times R^{10 \times 10} \times R^{10 \times 10 \times 512} = R^{1 \times 10 \times 512}$ ，即可得到每个第1层到第2层连接权值的导数，根据梯度下降算法，就可以求出新的连接权值了。
到目前为止，我们已经将所有多层感知器（MLP）模式中用到的技术，全部讲述完成了，有了这些基本知识之后，我们就可以搭建一个完整的多层感知器（MLP）模型了，在下一节中我们将搭建一个最基本的多层感知器模型用于MNIST手写数字识别。

TensorFlow可微分编程实践3---交叉熵与代价函数微分

猜你喜欢