DNN反向传播推导简介

如果对DNN前向传播，梯度下降不熟悉，建议先了解一下。

这里假设DNN的损失函数如： $J(W,b,x,y)=\frac{1}{2}||a^L-y||^2_2$
其中输出层为第L层，输出结果 $a^L=\sigma(z^L)=\sigma(W^La^{L-1}+b^L)$ ，这样损失函数变为：

J (W, b, x, y) = \frac{1}{2} | | σ (W^{L} a^{L - 1} + b^{L}) - y | |_{2}^{2}

$J(W,b,x,y)=\frac{1}{2}||\sigma(W^La^{L-1}+b^L)-y||^2_2$
求解W，b的梯度为：

\frac{\partial J (W, b, x, y)}{\partial W^{L}} = \frac{\partial J (W, b, x, y)}{\partial z^{L}} \frac{\partial z^{L}}{\partial W^{L}} = (a^{L} - y) ⊙ σ^{^{'}} (z^{L}) (a^{L - 1})^{T}

$\frac{\partial J(W,b,x,y)}{\partial W^L}=\frac{\partial J(W,b,x,y)}{\partial z^L} \frac{\partial z^L}{\partial W^L}=(a^L-y)\odot{\sigma^{'}(z^L)(a^{L-1})^T}$

\frac{\partial J (W, b, x, y)}{\partial b^{L}} = \frac{\partial J (W, b, x, y)}{\partial z^{L}} \frac{\partial z^{L}}{\partial b^{L}} = (a^{L} - y) ⊙ σ^{^{'}} (z^{L})

$\frac{\partial J(W,b,x,y)}{\partial b^L}=\frac{\partial J(W,b,x,y)}{\partial z^L} \frac{\partial z^L}{\partial b^L}=(a^L-y)\odot{\sigma^{'}(z^L)}$
注意到，求解W，b梯度时有公共部分

\frac{\partial J (W, b, x, y)}{\partial z^{L}}

$\frac{\partial J(W,b,x,y)}{\partial z^L}$ ,因此可以先把这一部分算出来，既损失函数对

z^{L}

$z^L$ 的导数记为：

δ^{L} = \frac{\partial J (W, b, x, y)}{\partial z^{L}} = (a^{L} - y) ⊙ σ^{^{'}} (z^{L})

$\delta^L=\frac{\partial J(W,b,x,y)}{\partial z^L}=(a^L-y)\odot{\sigma^{'}(z^L)}$
现在我们终于把输出层的梯度算出来了，那么如何计算上一层

L - 1

$L−1$ 层的梯度，上上层

L - 2

$L−2$ 层的梯度呢？这里我们需要一步步的递推，注意到对于第

l

$l$ 层的未激活输出

z^{l}

$z^l$ ，它的梯度可以表示为:

δ^{l} = \frac{\partial J (W, b, x, y)}{\partial z^{l}} = \frac{\partial J (W, b, x, y)}{\partial z^{L}} \frac{\partial z^{L}}{\partial z^{L - 1}} \frac{\partial z^{L - 1}}{\partial z^{L - 2}} \cdot \cdot \cdot \frac{\partial z^{l + 1}}{\partial z^{l}}

$\delta^l=\frac{\partial J(W,b,x,y)}{\partial z^l}=\frac{\partial J(W,b,x,y)}{\partial z^L} \frac{\partial z^L}{\partial z^{L-1}} \frac{\partial z^{L-1}}{\partial z^{L-2}}··· \frac{\partial z^{l+1}}{\partial z^{l}}$
如果可以算出来第

l

$l$ 层

δ^{l}

$\delta{^l}$ ，则该层的

W^{l}, b^{l}

$W^l,b^l$ 很容易计算，因为根据前向传播有：

z^{l} = W^{l} a^{l - 1} + b^{l}

$z^l=W^la^{l-1}+b^l$
所以求得

W^{l}, b^{l}

$W^l,b^l$ 梯度如下：

\frac{\partial J (W, b, x, y)}{\partial W^{l}} = \frac{\partial J (W, b, x, y)}{\partial z^{l}} \frac{\partial z^{l}}{\partial W^{l}} = δ^{l} (a^{l - 1})^{T}

$\frac{\partial J(W,b,x,y)}{\partial W^l}=\frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial W^l}=\delta{^l}(a^{l-1})^T$

\frac{\partial J (W, b, x, y)}{\partial b^{l}} = \frac{\partial J (W, b, x, y)}{\partial z^{l}} \frac{\partial z^{l}}{\partial b^{l}} = δ^{l}

$\frac{\partial J(W,b,x,y)}{\partial b^l}=\frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial b^l}=\delta{^l}$
所以问题的关键就是求

δ^{l}

$\delta{^l}$ ，我们用数学归纳法，第

L

$L$ 层的

δ^{L}

$\delta{^L}$ 上面我们已经求出，假设第

l + 1

$l+1$ 层的

δ^{l + 1}

$\delta{^{l+1}}$ 已经求出来了，那么如何求第

l

$l$ 层的

δ^{l}

$\delta{^l}$ 呢？注意这里：

δ^{l} = \frac{\partial J (W, b, x, y)}{\partial z^{l}} = \frac{\partial J (W, b, x, y)}{\partial z^{l + 1}} \frac{\partial z^{l + 1}}{\partial z^{l}} = δ^{l + 1} \frac{\partial z^{l + 1}}{\partial z^{l}}

$\delta^l=\frac{\partial J(W,b,x,y)}{\partial z^l}=\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} \frac{\partial z^{l+1}}{\partial z^{l}} =\delta^{l+1} \frac{\partial z^{l+1}}{\partial z^l}$
可见，用归纳法递推

δ^{l + 1}

$\delta^{l+1}$ 和

δ^{l}

$\delta^l$ 的关键在于如何求解

\frac{δ^{l + 1}}{δ^{l}}

$\frac{\delta^{l+1}}{\delta^{l}}$

z^{l + 1}

$z^{l+1}$ 和

z^{l}

$z^l$ 的关系很容易找出：

z^{l + 1} = W^{l + 1} a^{l} + b^{l + 1} = W^{l + 1} σ (z^{l}) + b^{l + 1}

$z^{l+1}=W^{l+1}a^l+b^{l+1}=W^{l+1}\sigma(z^l)+b^{l+1}$
可以得出：

\frac{\partial z^{l + 1}}{\partial z^{l}} = (W^{l + 1})^{T} ⊙ \underset{n_{l + 1}}{\underset{⏟}{(σ^{^{'}} (z^{l}), . ., σ^{^{'}} (z^{l}))}}

$\frac{\partial z^{l+1}}{\partial z^l}=(W^{l+1})^T\odot \underbrace{(\sigma^{'}(z^l),..,\sigma^{'}(z^l))}_{n_{l+1}}$
上式的Hadamard乘积表达的意义是权值矩阵的每一个列向量都点乘 $\sigma^{'}(z^l)$

将上式带入上面 $\delta^l$ 和 $\delta^{l+1}$ 的关系我们得出：

δ^{l} = δ^{l + 1} \frac{\partial z^{l + 1}}{\partial z^{l}} = (W^{l + 1})^{T} δ^{l + 1} ⊙ σ^{^{'}} (z^{l})

$\delta^{l} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$
得到了

δ^{l}

$\delta^l$ 的递推关系，只要求出某一层的

δ^{l}

$\delta^l$ ，求解

W^{l}, b^{l}

$W^l,b^l$ 对应的梯度就很简单了。

参考资料：
http://www.cnblogs.com/pinard/p/6422831.html

DNN反向传播推导过程

DNN反向传播推导简介

如果对DNN前向传播，梯度下降不熟悉，建议先了解一下。

猜你喜欢