DNN反向传播推导的严格表述

近期把DNN的反向传播又好好的研究了一下。之前一直有疑虑是因为很多文档里边出现 $\frac{\partial z^{(l+1)}}{\partial z^{(l)}}$ 这种表达式，然后 $z^{(l+1)}$ 和 $z^{(l)}$ 还是矩阵，这下就变得非常烦人了，因为没有哪本数学书定义了矩阵对矩阵的导数。只有标量函数对矩阵，矩阵对标量，标量对向量，向量对标量以及向量对向量。所以我觉得有必要在好好把这块弄一下，写清楚。

首先是DNN的模型：

\begin{matrix} (1028) & {\begin{array}{lr} z^{(l + 1)} = θ^{(l + 1)} \cdot a^{(l)} + b^{(l + 1)} \cdot 1^{T}, \\ a^{(l)} = g (z^{(l + 1)}), & l = 1, 2, 3, \dots, N \\ J = J (a^{(N)}) \end{array} \end{matrix}

$\begin{equation} \left\{ \begin{array}{lr} z^{(l+1)} = \theta^{(l+1)}\cdot a^{(l)}+b^{(l+1)}\cdot\boldsymbol{1}^T, & \\ a^{(l)} = g(z^{(l+1)}),& l=1,2,3,\dots,N \\ J=J(a^{(N)}) & \end{array} \right. \end{equation}$

这里边， $a^{(1)}=X$ 也就是输入， $\boldsymbol{1}$ 是列向量。然后：

\begin{matrix} (1029) & X = (\begin{matrix} | & \dots & | \\ X_{1} & \dots & X_{m} \\ | & \dots & | \end{matrix}) \end{matrix}

$\begin{equation} X= \begin{pmatrix} | & \dots & | \\ X_1 & \dots & X_m \\ | & \dots & | \\ \end{pmatrix} \end{equation}$
也就是说，一共有m个样本。

通常的文章怎么描述的呢？定义 $\delta^{(l)}=\frac{\partial J}{\partial z^{(l)}}$ ，假如计算出了 $\delta^{(l)}$ 那么 $\frac{\partial J}{\partial \theta^{(l)}}=\frac{\partial J}{\partial z^{(l)}}\cdot\frac{\partial z^{(l)}}{\partial \theta^{(l)}}$ ，然后 $\frac{\partial J}{\partial z^{(l-1)}}=\frac{\partial J}{\partial z^{(l)}}\cdot\frac{\partial z^{(l)}}{\partial z^{(l-1)}}$ ，由于 $\frac{\partial J}{\partial z^{(N)}}$ 很容易计算，所以后边递推就可以了。但是问题在于 $\frac{\partial z^{(l)}}{\partial z^{(l-1)}}$ 到底是啥？雅可比矩阵吗？ $z^{(l)}$ 和 $z^{(l-1)}$ 都是矩阵，没有一本数学书有这么直接写的。矩阵对矩阵的导数目前还处于undefined的状态。所以这个符号其实是没有严格定义的。只不过按照其他的方式推导出来后，结果看上去很像，所以就这么写了，但是如果真的较真说这个矩阵对矩阵的定义是什么怎么算，那就没法严格的说了。所以这篇文章就是仔细的把这块严格的做一下。

然后有几个公式定理需要推导一下，推到完了，很多东西就迎刃而解了。

$f:R^{m\times n}\mapsto R$ 也就是一个矩阵的标量函数，那么若 $g:R^{p\times q}\mapsto R^{m\times n}$ ，那么复合函数： $f\circ g:R^{p\times q}\mapsto R$ ，例如 $f(z),\ z=\theta X$ ，又如 $f(a),\ a=g(z)$ 。在这种情况下，我们希望得到 $\frac{\partial f}{\partial \theta}$ 或者 $\frac{\partial f}{\partial z}$ ，该如何求解？其实这种情况，需要用到matrix vectorization和kronecker product，但是我们所遇到的恰好是线性变换和element-wise function，所以对于这两种情况，完全可以简化。

Lemma 1
若 $g$ 是一个矩阵左乘或者右乘，也就是 $g=\theta X$ 这种情况，那么有：

\begin{matrix} (1030) & \begin{aligned} {[\frac{\partial f}{\partial X}]}_{i, j} & = \sum_{m} \sum_{n} \frac{\partial f}{\partial g_{m, n}} \cdot \frac{\partial g_{m, n}}{\partial X_{i, j}} \\ = \sum_{m} \sum_{n} \frac{\partial f}{\partial g_{m, n}} \cdot \frac{\partial \sum_{k} θ_{m, k} X_{k, n}}{\partial X_{i, j}} \\ = \sum_{m} \frac{\partial f}{\partial g_{m, j}} \cdot θ_{m, i} \\ = {[θ^{T} \cdot \frac{\partial f}{\partial g}]}_{i, j} \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} \left[\frac{\partial f}{\partial X}\right]_{i,j} &=\sum_m{\sum_n{ \frac{\partial f}{\partial g_{m,n}}\cdot\frac{\partial g_{m,n}}{\partial X_{i,j}} }} \\ &=\sum_m{\sum_n{ \frac{\partial f}{\partial g_{m,n}}\cdot\frac{\partial \sum_k{\theta_{m,k}X_{k,n}} }{\partial X_{i,j}} }} \\ &=\sum_m{\frac{\partial f}{\partial g_{m,j}}\cdot\theta_{m,i}} \\ &= \left[\theta^T\cdot\frac{\partial f}{\partial g}\right]_{i,j} \end{aligned} \end{equation}$
因此：

\frac{\partial f}{\partial X} = θ^{T} \cdot \frac{\partial f}{\partial g}

$\frac{\partial f}{\partial X}=\theta^T\cdot\frac{\partial f}{\partial g}$
其中第一个等号是全微分公式，第二个等号是矩阵乘法展开，第三个等号是因为

k \neq i, n \neq j

$k\neq i,\ n\neq j$ 时

\frac{\partial θ_{m, k} X_{k, n}}{\partial X_{i, j}} = 0

$\frac{\partial \theta_{m,k}X_{k,n}}{\partial X_{i,j}} =0$ ，最后一个等号就是矩阵乘法了。
同理：

\frac{\partial f}{\partial θ} = \frac{\partial f}{\partial g} \cdot X^{T}

$\frac{\partial f}{\partial \theta}=\frac{\partial f}{\partial g}\cdot X^T$

Lemma 2
假如 $g$ 是一个非线性函数，但是是一个element-wise的函数，那么：

\begin{matrix} (1031) & \begin{aligned} {[\frac{\partial f}{\partial X}]}_{i, j} & = \sum_{m} \sum_{n} \frac{\partial f}{\partial g_{m, n}} \cdot \frac{\partial g_{m, n}}{\partial X_{i, j}} \\ = {[\frac{\partial f}{\partial a}]}_{i, j} \cdot {[g^{'} (z)]}_{i, j} \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} \left[\frac{\partial f}{\partial X}\right]_{i,j} &=\sum_m{\sum_n{ \frac{\partial f}{\partial g_{m,n}}\cdot\frac{\partial g_{m,n}}{\partial X_{i,j}} }} \\ &= \left[\frac{\partial f}{\partial a}\right]_{i,j}\cdot \left[g'(z)\right]_{i,j} \end{aligned} \end{equation}$
因此：

\begin{matrix} (1032) & \frac{\partial f}{\partial X} = \frac{\partial f}{\partial a} ⊙ g^{'} (z) \end{matrix}

$\begin{equation} \frac{\partial f}{\partial X}=\frac{\partial f}{\partial a}\odot g'(z) \end{equation}$
这里边

⊙

$\odot$ 是hardamard product，其实就是元素乘法。

有了Lemma 1和Lemma 2之后很多东西就迎刃而解了。定义 $\delta^{(l)}=\frac{\partial J}{\partial z^{(l)}}$ ，而 $z^{(l)}= \theta^{(l)}\cdot a^{(l-1)}+b^{(l)}\cdot\boldsymbol{1}^T$
那么显然：

\begin{matrix} (1033) & \begin{aligned} \frac{\partial J}{\partial θ^{(l)}} & = δ^{(l)} \cdot (a^{(l - 1)})^{T} \\ \frac{\partial J}{\partial b^{(l)}} & = δ^{(l)} \cdot 1 \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} \frac{\partial J}{\partial \theta^{(l)}}&=\delta^{(l)}\cdot (a^{(l-1)})^T \\ \frac{\partial J}{\partial b^{(l)}}&=\delta^{(l)}\cdot \boldsymbol{1} \end{aligned} \end{equation}$
那么对于有了

δ^{(l + 1)}

$\delta^{(l+1)}$ 计算

δ^{(l)}

$\delta^{(l)}$ 呢？首先由于

z^{(l + 1)} = θ^{(l + 1)} \cdot a^{(l)} + b^{(l + 1)} \cdot 1^{T}

$z^{(l+1)} = \theta^{(l+1)}\cdot a^{(l)}+b^{(l+1)}\cdot\boldsymbol{1}^T$ ，所以：

\frac{\partial J}{\partial a^{(l)}} = {(θ^{(l + 1)})}^{T} \cdot δ^{(l + 1)}

$\frac{\partial J}{\partial a^{(l)}}=\left(\theta^{(l+1)}\right)^T\cdot \delta^{(l+1)}$
这里用了Lemma 1的第一个，然后根据Lemma 2，

a^{(l)} = g (z^{(l)})

$a^{(l)}=g(z^{(l)})$ ，因此：

\begin{matrix} (7) & \frac{\partial J}{\partial z^{(l)}} = {(θ^{(l + 1)})}^{T} \cdot δ^{(l + 1)} ⊙ g^{'} (z^{(l)}) \end{matrix}

$\begin{equation}\frac{\partial J}{\partial z^{(l)}}=\left(\theta^{(l+1)}\right)^T\cdot \delta^{(l+1)}\odot g'(z^{(l)})\end{equation}$
这样就完成了推导。
我认为这种方式比

\frac{\partial z^{(l + 1)}}{\partial z^{(l)}}

$\frac{\partial z^{(l+1)}}{\partial z^{(l)}}$ 这种写法要清晰明白很多，因为矩阵对矩阵的导数一定是得每个元素都要求导。这样就出来一个mn x mn矩阵了，但是目前这种方式，就明白清晰了很多。
另外如果吧bias一项放入

θ

$\theta$ 里边去，然后

a^{(l)}

$a^{(l)}$ 不上一行1，也是可以的，就直接用：

\frac{\partial J}{\partial θ^{(l)}} = δ^{(l)} \cdot (a^{(l - 1)})^{T}

$\frac{\partial J}{\partial \theta^{(l)}}=\delta^{(l)}\cdot (a^{(l-1)})^T$ 即可。

DNN反向传播推导的严格表述

猜你喜欢