写在前面

受课程的大作业启发，仔细学习了下反向传播的具体实现过程。
感谢各路大神在相关方面写的文章。
我们都知道CNN在训练时既有前向传播也有反向传播，但是在Pytorch中只需要一行代码就可以实现反向传播。我们不必手动实现它们。因此，大多数深度学习书籍也没有涵盖它。
文章会从卷积层、池化层、批标准化三部分进行分析。

正文

1.卷积层中的反向传播

参考了Pavithra Solai 的博客。

1.1 链式法则

开始公式推导之前我们先要了解链式法则的计算。
这部分比较基础，如果提前了解过的可以直接跳过。
我们举两个例子来做说明：

Case1

取y=g(x)，z=h(y)。

当改变x时，x 会通过 g 影响 y，而当改变 y 时，y 会通过 h 影响 z。
因此，如果我们要计算 dz/dx，由于这种效应，我们可以计算 dz/dy 乘 dy/dx。

Case2

取x=g(s)，y=g(s)。

然后有一个函数k，它需要x和y来得到z。因此，对 s 进行更改会同时影响 x 和 y，从而导致 x 和 y 同时影响 z。然后当我们计算 dz/ds 时。我们需要计算的是 $\frac{\partial{z}}{\partial{x}}\frac{dx}{ds}+\frac{\partial{z}}{\partial{y}}\frac{dy}{ds}$ 。

这就是链式法则。

现在我们提出一个简单的计算图

我们可以将 CNN 想象成这个简化的计算图。假设我们在该计算图中有一个门 f，输入 x 和 y 输出 z。
我们可以很容易地计算局部梯度——将 z 相对于 x 和 y 的微分即为 $\partial{z}/\partial{x}$ 和 $\partial{z}/\partial{y}$ 。

对于卷积层的前向传播，输入X和F穿过卷积层，最后使用损失函数获得损失L。当我们开始反向计算损失时，层与层之间，我们从前一层得到损失的梯度，即 $\partial{L}/\partial{X}$ 和 $\partial{L}/\partial{F}$ 。

1.2 前向传播

我们从前向传播开始，使用3×3输入 $X$ 和2×2卷积核 $F$ 进行卷积以获得2×2结果 $O$ ，即如下图所示：

进行卷积的过程可以可视化如下：

基于前向传播公式，我们可以进行反向传播计算。
如上所示，我们可以找到相对于输出 $O$ 的局部梯度 $\partial O / \partial X$ 和 $\partial O / \partial F$ 。利用前一层的损失梯度—— $\partial L / \partial O$ ，并使用链式法则，我们就可以计算出 $\partial L / \partial X$ 和 $\partial L / \partial F$ 了。

PS：为啥我们要算 $\partial L / \partial X$ 和 $\partial L / \partial F$ ？

(1) 根据公式 $F_{updated}=F-\alpha\frac{∂L}{∂F}$ 可以看出 $F$ 是我们需要计算更新的参数，而它的更新正是通过 $\partial L / \partial F$ 参数来实现的。
(2) $\partial L / \partial X$ 作为这一层的输入部分，在反向传播时可以看作反向传播的输出，而这个输出正是上一层的输入梯度，有了 $\partial L / \partial X$ 我们才能继续前一层的反向传播计算。

1.3 ∂O/∂F

第一步是局部梯度 $\partial O / \partial F$ 的计算

以 $O_{11}$ 为例，我们只需要对 $O_{11}$ 公式中对应的的 $F$ 求偏导即可。这一步很简单。

然后使用链式法则我们可以得到 $\partial L / \partial F$ ，可以通过 $\partial L / \partial O$ 和 $\partial O / \partial F$ 的卷积得到。我们利用下式将其展开：

展开可以可到如下四个式子：

按照之前说的求完偏导可以得到：

可以将其表示为输入 $X$ 和损失梯度 $\partial L / \partial O$ 之间的卷积运算，如下所示。

这样我们就找到了 $\partial O / \partial F$ ,接下来是 $\partial O / \partial X$ 。

1.4 ∂O/∂X

和之前求解 $\partial O / \partial F$ 的过程相似，还是以 $O_{11}$ 为例，这次我们需要对 $O_{11}$ 公式中对应的的 $X$ 求偏导。

这样我们就得到新的梯度，利用链式法则我们可以写出新的卷积：

展开求偏导可以得到：

这9个式子乍一看没规律，但是他们依旧符合卷积的计算规则。
具体是什么规则呢，我们先将 $F$ 旋转 180 度，这可以通过先垂直翻转然后水平翻转来完成。

然后我们对它做full mode的卷积操作(卷积的几种模式的讲解可以参考这位博主的博文)。
'Full-Convolution’可以如下图可视化表示：

上面的卷积操作生成了 $\partial L / \partial X$ 的值，因此我们可以将 $\partial L / \partial X$ 表示如下: