TensorFlow可微编程实践2---自动微分符号体系

自动微分采用一套与常规机器学习和深度学习不同的符号体系，我们只有熟悉了这个符号体系，才能比较轻松的看懂自动微分的文章。本篇博文将向大家介绍自动微分中使用的符号体系。
我们以下面这个函数为例，讲解一下自动微分的符号表示法：

y = f (x_{1}, x_{2}) = \log x_{1} + x_{1} x_{2} - \sin x_{2}

$y=f(x_1, x_2)=\log{x_1}+x_1x_2 -\sin{x_2}$
对自动微分采用一种比较特别的符号表示法，与Bingio的《Deep Learning》书中MLP章节中的表示法类似，采用三段表示法。

输入向量
我们假设自变量维度为n，在这个例子中n=2，我们用 $v$ 来表示自变量： $v_{i-n}=x_i, i=1, 2, ..., n$ ，以本例为例，我们用 $v_{-1}$ 表示 $x_1$ ，用 $v_0$ 表示 $x_2$ 。
中间变量
我们同样用 $v$ 表示中间变量，假设共有 $l$ 个中间变量，表示为： $v_i, i=1, 2, ..., l$
输出向量
我们用 $y$ 来表示输入向量，假设输出向量维度为 $k$ ，表示为： $y_{k-i}=v_{l-i}, i=k-1, ..., 0$ ，还以本例为例，输出向量只有1维，则 $k=1$ ，则 $y_1=v_l$ 。

我们先来讲前向模式，这种模式即可求出计算图的输出，同时也可以求出导数值。但是如果以深度学习的角度来看，前向模式就只需要完成计算出计算图中各节点的值就可以了。而求导数则由反向模式来实现。
我们首先给输入节点赋值： $v_{-1}=x_1$ 和 $v_0=x_2$
接着我们计算 $v_1$ 节点： $v_1=\log{v_{-1}}=\log{x_1}$
我们再计算 $v_2$ 节点： $v_2=v_{-1}v_0=x_1x_2$
我们再来计算 $v_3$ 节点： $v_3=v_1+v_2=\log{x_1}+x_1x_2$
计算 $v_4$ 节点： $v_4=-\sin{v_0}=-\sin{x_2}$
计算输出节点 $v_5$ ： $y_1=v_5=v_3+v_4=\log{x_1}+x_1x_2-\sin{x_2}$
至此我们就计算出了计算图中所有节点的值。
下面我们来介绍在正向模式下导数的计算。假设我们想求 $\frac{\partial{y}}{\partial{x_1}}$ 的值，我们也是由输入开始计算。
对 $v_{-1}$ 节点： $\frac{\partial{v_{-1}}}{\partial{x_1}}=1$ ，因为 $v_{-1}=x_1$
对 $v_0$ 节点： $\frac{\partial{v_{0}}}{\partial{x_1}}=0$ ，因为 $v_0=x_2$ 其与 $x_1$ 无关。
对 $v_1$ 节点： $\frac{\partial{v_{1}}}{\partial{x_1}}=\frac{\partial{}}{\partial{x_1}}\log{x_1}=\frac{1}{x_1}$
对 $v_2$ 节点： $\frac{\partial{v_{2}}}{\partial{x_1}}=\frac{\partial{}}{\partial{x_1}}x_1x_2=x_2$
对 $v_3$ 节点： $\frac{\partial{v_{3}}}{\partial{x_1}}=\frac{\partial{v_{1}}}{\partial{x_1}}+\frac{\partial{v_{2}}}{\partial{x_1}}=\frac{1}{x_1}+x_2$
对 $v_4$ 节点： $\frac{\partial{v_{4}}}{\partial{x_1}}=\frac{\partial{}}{\partial{x_1}}\sin{x_2}=0$
对 $v_5$ 节点： $\frac{\partial{v_{5}}}{\partial{x_1}}=\frac{\partial{v_{3}}}{\partial{x_1}}-\frac{\partial{v_{4}}}{\partial{x_1}}=\frac{1}{x_1}+x_2$
由上面的计算可以看出，我们每次前向计算，只能计算输入向量一维的导数，如果输入向量有 $n=2$ 维，则需要计算两次，当 $n$ 很大时，这种方法的效率就会比较低了。
对于深度学习问题，我们通常会研究Jacobian矩阵，假设输入向量 $\boldsymbol{x} \in R^n$ ，而输出向量用 $\boldsymbol{y} \in R^k$ ，则Jacobian矩阵定义为：
$J = [\begin{matrix} \frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{1}}{\partial x_{2}} & . . . & \frac{\partial y_{1}}{\partial x_{n}} \\ . . . & . . . & . . . & . . . \\ \frac{\partial y_{k}}{\partial x_{1}} & \frac{\partial y_{k}}{\partial x_{2}} & . . . & \frac{\partial y_{k}}{\partial x_{n}} \end{matrix}]$ $J= \begin{bmatrix} \frac{\partial{y_1}}{\partial{x_1}}&\frac{\partial{y_1}}{\partial{x_2}}&...&\frac{\partial{y_1}}{\partial{x_n}} \\ ...&...&...&... \\ \frac{\partial{y_k}}{\partial{x_1}}&\frac{\partial{y_k}}{\partial{x_2}}&...&\frac{\partial{y_k}}{\partial{x_n}} \end{bmatrix}$
我们可以看出，一次前向计算，可以求出Jacobian矩阵的一列数据。
为了讨论方便，我们这里假设 $x_1=2$ 且 $x_2=5$ ，我们首先按照前向模式计算出各节点的值，如下图所示：

我们再来看导数部分。
对 $v_5$ 节点有 $v_5=v_3-v_4$ ，我们首先求 $\frac{\partial{v_5}}{\partial{v_3}}=\frac{\partial{(v_3-v_4)}}{\partial{v_3}}=1$ ，将结果写在 $v_3$ 指向 $v_5$ 的边上。
我们再来求 $\frac{\partial{v_5}}{\partial{v_4}}=\frac{\partial{(v_3-v_4)}}{\partial{v_4}}=-1$ ，将结果写在 $v_4$ 指向 $v_5$ 的边上。
我们再来求 $\frac{\partial{v_4}}{\partial{v_0}}=\frac{\partial{\sin{v_0}}}{\partial{v_0}}=\cos{v_0}=0.284$ ，将结果写在 $v_0$ 指向 $v_4$ 的边上。
我们再来求 $\frac{\partial{v_3}}{\partial{v_1}}=\frac{\partial{(v_1+v_2)}}{\partial{v_1}}=1$ ，将结果写在 $v_1$ 指向 $v_3$ 的边上。
我们再来求 $\frac{\partial{v_3}}{\partial{v_2}}=\frac{\partial{(v_1+v_2)}}{\partial{v_2}}=1$ ，将结果写在 $v_2$ 指向 $v_3$ 的边上。
我们再来求 $\frac{\partial{v_1}}{\partial{v_{-1}}}=\frac{\partial{\log{v_{-1}}}}{\partial{v_{-1}}}=\frac{1}{x_1}=0.5$ ，将结果写在 $v_{-1}$ 指向 $v_1$ 的边上。
我们再来求 $\frac{\partial{v_2}}{\partial{v_{-1}}}=\frac{\partial{(v_{-1}v_0})}{\partial{v_{-1}}}=v_0=5$ ，将结果写在 $v_{-1}$ 指向 $v_2$ 的边上。
我们再来求 $\frac{\partial{v_2}}{\partial{v_{0}}}=\frac{\partial{(v_{-1}v_0})}{\partial{v_{0}}}=v_{-1}=2$ ，将结果写在 $v_0$ 指向 $v_2$ 的边上。
至此我们已经求出了所有步的偏导数的值，我们计算 $\frac{\partial{y_1}}{\partial{x_1}}$ 就是从 $y_1$ 开始，反向走回 $x_1$ 节点，可能有多条路径，对每一条路径，将每个边上的值连乘，最后将多条路径的值相加，即可求出 $\frac{\partial{y_1}}{\partial{x_1}}$ 的值。 $\frac{\partial{y_1}}{\partial{x_2}}$ 的值与此类似。
如图所示，从 $y_1$ 走到 $x_1$ 共有两条路径，分别为：
$v_5 \to v_3 \to v_1 \to v_{-1}$ ： $1*1*0.5=0.5$
$v_5 \to v_3 \to v_2 \to v_{-1}$ ： $1*1*5=5.0$
所以 $\frac{\partial{y_1}}{\partial{x_1}}=0.5+5.0=5.5$ 。
用同样的方法我们可以计算 $\frac{\partial{y_1}}{\partial{x_2}}$ 的值。由 $y_1$ $\frac{\partial{y_1}}{\partial{x_2}}$ 到 $x_2$ 的路径也有两条：
$v_5 \to v_3 \to v_2 \to v_0$ ： $1*1*2=2.0$
$v_5 \to v_4 \to v_0$ ： $(-1)*0.284=-0.284$
所以 $y_1$ $\frac{\partial{y_1}}{\partial{x_2}}=2.0+(-0.284)=1.716$ 。
相对于正向模式而言，反向模式可以通过一次反向传输，就计算出所有偏导数，而这对于深度学习中的如多层感知器（MLP）模型来说，非常方便，而且中间的偏导数计算只需计算一次，减少了重复计算的工作量，当然这是以增加存储量需求为代价的。
在本篇博文中，我们详细讲解了自动微分概念，自动微分概念是一个比较老的概念，但是将其引入深度学习领域，还是一个新鲜事务，这就是最近Yann Lecun提到的“深度学习已死，可微分编程永生”中的技术。在下一篇博文中，我们将向大家介绍自动微分在深度学习中的应用。

TensorFlow可微编程实践2---自动微分符号体系

猜你喜欢