反向传播公式推导与计算图表示

计算图模型与反向传播

前向传导与反向传导的区别是前向传导是计算每一个输入对于每一个节点的影响（计算∂/∂X，其中X表示输入），反向传导计算每一个节点对于每一个输出的影响（∂Y/∂，Y表示每一个输出）之所以反向传播比前向传播计算效率要高的多，是因为在神经网络中一般而言输入节点个数远远要大于输出节点个数（当然如果是输出节点个数远远大于输入节点的时候前向传导效率要高于反向传导但是基本不存在这样的情形），在神经网络中把损失看做是权重的函数，需要计算损失关于权重的偏导，而权重的个数百万，千万甚至过亿级别，这时使用反向传播可以大大减少运算量。
通过计算图模型说明前向传播与反向传播的性能区别，例如 F=Q*Z Q=x+y X=2 Y=5 Z=-4 ，输入节点为X，Y，Z 输出节点为F。
其反向传播计算图模型如下：
这里写图片描述
只需进行一遍偏导计算，就可以根据链式法则得到F关于X，Y，Z的全部偏导数
如果采用前向传播
则需要分别对于X，Y, Z进行偏导运算，这里以X举例

采用链式法则将三个支路相加得到F对于X的偏导，同理对于Y和Z也是这样，因此对于该情形要求得F分别对于X，Y，Z的偏导需要进行三次运算当输入参数大时，前向传播效率远远小于反向传播

计算图模型进一步解释

计算图模型使用方法一般如下
1.确认中间函数
2.计算局部梯度
3.使用链式法则结合上游梯度求得全局梯度
接下来以一个更为复杂的方程为例解释计算图模型
这里写图片描述
对于中间函数的确认环节并不是唯一的选择计算简单且自己习惯的中间函数就好

利用链式法则可求得f对于输入各个参数的偏导（使用链式法则的时候要注意求某一个节点的偏导时如果该节点的出度大于1 即向外发射的射线个数多于1 则需要将各个出度在该节点之前的上游梯度求和）

利用计算图模型表示反向传播

W_j,k^L表示的是从L-1层中第k个神经元到L层中第j个神经元之间的连接权值
这里写图片描述

这里写图片描述

写成向量表示为：
这里写图片描述
同时定义了中间量

将其称为l层的带权输入，在反向传播的计算图模型中该中间量起到了非常重要的作用
反向传播的目的是计算输出节点（代价函数可以写成神经网络的输出函数这里即为cost function C）对于w和b的偏导数
这里写图片描述

当输入样本x固定的时候 y也是固定的，所以C只是关于a^L的函数同时可以通过计算图利用z这一中间量将其转化为关于w和b的函数
为了表达更为简洁在这里定义残差δ_j^l 即损失函数对于L层第j个神经元带权输入的偏导，

这里写图片描述

也是一个重要的中间量，该残差表明了该节点对于最终输出损失的影响，可以这么理解如果l层的a节点通过w参数对l+1层的b节点产生了影响那么在反向传播的过程中梯度通过权值w从b节点传回到a节点，同样的与收敛态相比（训练结束之后的状态）在训练中间过程中 l层的j节点的带权输入存在着一个▽z_j^l,对最终的损失产生 ∂C/∂z_j^l▽z_j^l的影响，当∂C/∂z_j^l接近0的时候通过更改▽z_j^l则不会对该神经元对最终结果产生什么影响，即该神经元已经接近最优。

在这里借用晓雷机器学习笔记中的计算图
这里写图片描述