1. Introduction

本节主要介绍反向传播的直观理解：使用链式法则进行递归求导的梯度计算方式。

给定一个函数 $\small f(x)$ ，其中 $\small x$ 是输入变量，我们要计算函数 $\small f$ 关于 $\small x$ 的梯度，即： $\small \triangledown f(x)$ 。

$\small f(x)$ 可以是损失函数 $\small L$ 。我们知道， $\small L$ 是关于输入样本 $\small X$ 和权重 $\small W$ 与偏置 $\small b$ 的函数，其中 $\small X$ 是固定不变的， $\small W$ 和 $\small b$ 是算法要去学习和确定的。通过计算损失函数 $\small L$ 关于 $\small W$ 和 $\small b$ 的导数，可以迭代更新权重和偏置。

2. Simple expressions and interpretation of the gradient

例1：函数 $\small f(x,y)=xy$ ，包括两个变量，分别对其求导，可以得到：

$\small \frac{\partial f}{\partial x} = y$ ， $\small \frac{\partial f}{\partial y} = x$

导数的解释：函数的关于某变量的导数，代表了这个变量的值的变化对函数的影响的大小。

梯度：梯度 $\small \triangledown f(x)$ 代表偏导数组成的向量，例如：

函数 $\small f(x,y)=xy$ 的梯度可以写成： $\small \triangledown f = [\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}] = [y,x]$

例2：计算加法运算 $\small f(x,y)=x+y$ 的的导数

$\small \frac{\partial f}{\partial x} = 1$ ， $\small \frac{\partial f}{\partial y} = 1$

这个例子表示，函数关于变量 $\small x,y$ 的导数与 $\small x,y$ 的值无关。

扫描二维码关注公众号，回复： 5312262 查看本文章

例3：计算max运算 $\small f(x,y)=max(x,y)$ 的导数

$\small \frac{\partial f}{\partial x} = 1 (x\geqslant y)$ ， $\small \frac{\partial f}{\partial y} = 1 (y\geqslant x)$

这个例子表示，只有取值大的变量才有导数，取值小的变量导数为0。

3. Compound expression （复合表达式）with chain rule

例4：计算 $\small f(x,y,z) = (x+y)z$ 的导数。

首先，将这个稍微复杂的表达式分解成两个函数 $\small q=x+y$ , $\small f=qz$ 。

然后，先对 $\small q,z$ 进行求导： $\small \frac{\partial f}{\partial q} = z$ ， $\small \frac{\partial f}{\partial z} = q$ 。

接着，再用 $\small q$ 对 $\small x,y$ 求导： $\small \frac{\partial q}{\partial x} = 1$ ， $\small \frac{\partial q}{\partial y} = 1$ 。

最后，根据链式法则可知：

$\small \frac{\partial f}{\partial x} = \frac{\partial f}{\partial q}\frac{\partial q}{\partial x} = z$ ， $\small \frac{\partial f}{\partial y} = \frac{\partial f}{\partial q}\frac{\partial q}{\partial y} = z$

若输入一个样本 $\small [x,y,z]=[-2,5,-4]$ ，上面的计算过程可以用下图表示：

绿色代表前向传播的结果，红色代表反向传播的结果。

4. Intuitive understanding of backpropagation

反向传播是局部运算过程。每个gate（计算单元）在得到输入后，可以立即计算两个东西：1. 输出 2. 根据输出值计算关于输入的局部梯度。每个Gate不需要知道整个网络的结构就可以进行这两个计算。在前向传播结束后，反向传播时，只用局部梯度相乘就可以得到最终输出相对于某个变量的梯度值。

注意：gate 就是计算单元。

5. Modularity:Sigmoid example

任意可微函数都可以作为一个gate，我们可以把任意多个gates组成一个gate，也可以将一个函数拆分成几个gates。

例5：给定函数 $\small f(w,x) = \frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2)}}$

在后面的学习中，我们会发现这个函数可以描述一个2D神经元，即：输入为 $\small x$ ，权重为 $\small w$ ，使用sigmoid作为激活函数的神经元。但现在，我们只把它看成一个函数就好。

这个函数是由多个gate组成的。除了之前介绍的加、乘、max之外，还有四种：

$\small f(x)=\frac{1}{x} \rightarrow \frac{\partial f}{\partial x} = -1/x^2$ ， $\small f_c(x)=c+x\rightarrow \frac{\partial f}{\partial x} = 1$

$\small f(x)=e^x \rightarrow \frac{\partial f}{\partial x} = e^x$ ， $\small f_a(x)=ax\rightarrow \frac{\partial f}{\partial x} = a$

以 $\small x=[-1,-2], w=[2,-3,-3]$ 为例，则给定函数的计算过程可以用下面的计算图表示：

Sigmoid函数及其导数：

Sigmoid函数定义：

$\small \sigma (x) = \frac{1}{1+e^{-x}}$

Sigmoid函数的导数：

$\small \frac{\partial \sigma}{\partial x} = \frac{e^{-x}}{1+e^{-x}} = \left ( \frac{1+e^{-x}-1}{1+e^{-x}} \right )\left ( \frac{1}{1+e^{-x}} \right ) = (1-\sigma (x))\sigma (x)$