深度学习/机器学习入门基础数学知识整理（二）：梯度与导数，矩阵求导，泰勒展开等

导数与梯度

导数：一个一元函数函数在某一点的导数描述了这个函数在这一点附近的变化率。

f' (a) = lim h \to 0 f ( a + h ) - f ( a ) h

$f'(a) = \lim_{h \rightarrow 0} \frac{f(a+h)-f(a)}{h}$

梯度:多元函数的导数就是梯度。

一阶导数，即梯度（gradient）：

\nabla f (X) = \partial f ( X ) \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f ( X ) \partial x 1 \partial f ( X ) \partial x 2 ⋮ \partial f ( X ) \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\nabla f(\bf{X}) = \frac{\partial f(\bf{X})}{\partial \bf{X}} = \begin{bmatrix} \frac{\partial f(\bf{X})}{\partial {x_1}} \\ \frac{\partial f(\bf{X})}{\partial {x_2}} \\ \vdots\\ \frac{\partial f(\bf{X})}{\partial {x_n}} \\ \end{bmatrix}$

二阶导数，Hessian矩阵：
$H (x) = \nabla 2 f (X) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f ( X ) \partial x 1 2 \partial 2 f ( X ) \partial x 2 \partial x 1 ⋮ \partial 2 f ( X ) \partial x n \partial x 1 \partial 2 f ( X ) \partial x 1 \partial x 2 \partial 2 f ( X ) \partial x 2 2 ⋮ \partial 2 f ( X ) \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f ( X ) \partial x 1 \partial x n \partial 2 f ( X ) \partial x 2 \partial x n ⋮ \partial 2 f ( X ) \partial x n 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\bf{H}(x)= \nabla^2f(\bf{X}) = \begin{bmatrix} \frac{\partial ^2 f(\bf{X})}{\partial {x_1}^2} & \frac{\partial ^2 f(\bf{X})}{\partial {x_1}\partial {x_2}} & \cdots & \frac{\partial ^2 f(\bf{X})}{\partial {x_1}\partial {x_n}} &\\ \frac{\partial ^2 f(\bf{X})}{\partial {x_2}\partial {x_1}} & \frac{\partial ^2 f(\bf{X})}{\partial {x_2}^2} & \cdots & \frac{\partial ^2 f(\bf{X})}{\partial {x_2}\partial {x_n}} &\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial ^2 f(\bf{X})}{\partial {x_n}\partial {x_1}} & \frac{\partial ^2 f(\bf{X})}{\partial {x_n}\partial {x_2}} & \cdots & \frac{\partial ^2 f(\bf{X})}{\partial {x_n}^2} &\\ \end{bmatrix}$

一阶导数和二阶导数经常记为 $f'(x)和f''(x)$

泰勒展开：一元函数的泰勒展开：

f (x k + δ) \approx f (x k) + f' (x k) δ + 1 2 f'' (x k) δ 2 + \dots + 1 n ! f (n) (x k) δ n

$f(x_k + \delta) \approx f(x_k) +f'(x_k)\delta + \frac{1}{2}f''(x_k)\delta^2 + \cdots +\frac{1}{n!}f^{(n)}(x_k)\delta^n$
多元函数的泰勒展开（仅前三项）：

f (x k + δ) \approx f (x k) + \nabla T f (x k) δ + 1 2 δ T f'' (x k) δ

$f(\bf{x}_k + \bf{\delta}) \approx f(x_k) +\nabla^Tf(\bf{x}_k) \bf{\delta} + \frac{1}{2}\bf{\delta^T}f''(\bf{x}_k)\bf{\delta}$

如果 $\nabla^T f(\bf{x}_k) =0$ ，则 $\bf{x}_k$ 称为“平稳点”，如果是一元函数，那么这个点肯定是一个局部极值点，最大或者最小局部极值点，如果f是凸函数则是全局最小值，凸函数是在下一节会简单介绍一下。

如果是多元函数， $\nabla^2 f(\bf{x}_k) \succ 0$ 正定，即所有特征值都是正的，那么上式的第三项是正的，则 $\bf{x}_k$ 为一严格局部极小值点（反之， $\nabla^2 f(\bf{x}_k) \prec0$ 负定严格局部极小值点）。更复杂的，如果二阶导数特征值有正有负，那么就是不定的，这个时候 $\bf{x}_k$ 为一个鞍点，即有些维度是局部极小值，有些是局部极大值，鞍点是当前神经网络训练面临的核心难点之一，后面在其他博文中有时间我会写到，这里还是回到基础先。

泰勒展开确实是很多数学问题的基础核心，这里再展开一点：
问题：为什么优化时选择梯度方向，梯度方向为什么是变化最快的方向？

扫描二维码关注公众号，回复： 2066429 查看本文章

由泰勒级数展开式的前两项 $f(\bf{x}_k + \bf{\delta}) \approx f(x_k) +\nabla^Tf(\bf{x}_k) \bf{\delta}$ 可知，当 $\delta$ 是一个模为定值但方向不确定的矢量时， $f(\bf{x}_k + \bf{\delta}) - f(x_k) \approx \nabla^Tf(\bf{x}_k) \bf{\delta}$ ，此时 $\nabla^Tf(\bf{x}_k) \bf{\delta} = ||\nabla^Tf(\bf{x}_k)|| \cdot|| \bf{\delta}||cos(\theta)$ ，最大在 $cos(\theta) = 1$ 取到，即 $\delta$ 取梯度方向或者负梯度方向。如果是求极小值，那么就是梯度下降法， $\delta$ 取负梯度方向，使得 $f(x)$ 下降最快。

矩阵求导总结

（1）对标量求导

标量关于标量x的求导：
$\partial y \partial x$ $\frac {\partial y}{\partial x}$
向量关于标量x的求导：
向量 ${\bf y} = \begin {bmatrix} y_1 \\ y_2\\ \vdots \\ y_n\end{bmatrix}$ 关于标量x 的求导就是 y 的每一个元素分别对x求导，可以表示为
$\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮ \partial y n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\frac {\partial \bf y}{\partial x} = \begin {bmatrix} \frac{\partial y_1}{\partial x} \\ \frac{\partial y_2}{\partial x} \\ \vdots \\ \frac{\partial y_n}{\partial x} \end{bmatrix}$
矩阵·关于标量x的求导：
矩阵对标量的求导类似于向量关于标量的求导，也就是矩阵的每个元素分别对标量x求导
$\partial Y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x \partial y 21 \partial x ⋮ \partial y n 1 \partial x \partial y 12 \partial x \partial y 22 \partial x ⋮ \partial y n 2 \partial x \dots \dots ⋱ \dots \partial y 1 n \partial x \partial y 2 n \partial x ⋮ \partial y n n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\frac {\partial \bf Y}{\partial x} = \begin {bmatrix} \frac{\partial y_{11} }{\partial x } & \frac{\partial y_{12} }{\partial x }& \cdots & \frac{\partial y_{1n} }{\partial x } \\ \frac{\partial y_{21}}{\partial x } & \frac{\partial y_{22}}{\partial x } & \cdots & \frac{\partial y_{2n}}{\partial x } \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_{n1} }{\partial x } & \frac{\partial y_{n2} }{\partial x } & \cdots & \frac{\partial y_{nn}}{\partial x } \end{bmatrix}$

（2）对向量求导

标量关于向量x的导数
标量y 关于向量 ${\bf x } = \begin {bmatrix} x_1 \\ x_2\\ \vdots \\ x_n\end{bmatrix}$ 的求导可以表示为
$= [\partial y \partial x 1 \partial y \partial x 2 \dots \partial y \partial x n]$ $= \begin {bmatrix} \frac{\partial y}{\partial x_{1} }\ \frac{\partial y}{\partial x_{2} } \ \cdots \ \frac{\partial y}{\partial x_{n} } \end{bmatrix}$
向量关于向量 x 的导数
向量函数（即函数组成的向量） ${\bf y} = \begin {bmatrix} y_1 \\ y_2\\ \vdots \\ y_n\end{bmatrix}$ 关于 ${\bf x } = \begin {bmatrix} x_1 \\ x_2\\ \vdots \\ x_n\end{bmatrix}$ 的导数
$\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 1 ⋮ \partial y n \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 ⋮ \partial y n \partial x 2 \dots \dots ⋱ \dots \partial y 1 \partial x n \partial y 2 \partial x n ⋮ \partial y n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\frac {\partial \bf y}{\partial \bf x} = \begin {bmatrix} \frac{\partial y_{1} }{\partial x_{1} } & \frac{\partial y_{1} }{\partial x_{2} }& \cdots & \frac{\partial y_{1} }{\partial x_{n} } \\ \frac{\partial y_{2}}{\partial x_{1} } & \frac{\partial y_{2}}{\partial x_{2} } & \cdots & \frac{\partial y_{2}}{\partial x_{n} } \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_{n} }{\partial x_{1} } & \frac{\partial y_{n} }{\partial x_{2} } & \cdots & \frac{\partial y_{n}}{\partial x_{n} } \end{bmatrix}$

此时获得的矩阵 $\frac {\partial y}{\partial \bf x}$ 叫做Jacobian 矩阵。

矩阵关于向量的导数
矩阵 ${\bf Y} = \begin {bmatrix} y_{11} & y_{12} & \cdots & y_{1n} \\ y_{21} & y_{22} & \cdots & y_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ y_{n1} & y_{n2} & \cdots & y_{nn} \end{bmatrix}$ 关于 ${\bf x } = \begin {bmatrix} x_1 \\ x_2\\ \vdots \\ x_n\end{bmatrix}$ 的导数是推导中最复杂的一种，表示为

$\partial Y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x 1 \partial y 21 \partial x 1 ⋮ \partial y n 1 \partial x 1 \partial y 1 n \partial x 2 \partial y 22 \partial x 2 ⋮ \partial y n 2 \partial x 2 \dots \dots ⋱ \dots \partial y 1 n \partial x n \partial y 2 n \partial x n ⋮ \partial y n n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\frac {\partial \bf Y}{\partial \bf x} = \begin {bmatrix} \frac{\partial y_{11} }{\partial x_{1} } & \frac{\partial y_{1n} }{\partial x_{2} }& \cdots & \frac{\partial y_{1n} }{\partial x_{n} } \\ \frac{\partial y_{21}}{\partial x_{1} } & \frac{\partial y_{22}}{\partial x_{2} } & \cdots & \frac{\partial y_{2n}}{\partial x_{n} } \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_{n1} }{\partial x_{1} } & \frac{\partial y_{n2} }{\partial x_{2} } & \cdots & \frac{\partial y_{nn}}{\partial x_{n} } \end{bmatrix}$
（3）对矩阵求导

一般只考虑标量关于矩阵的导数，即标量y 对矩阵 X 的导数，此时的导数是梯度矩阵，可以表示为下式：

$\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 12 ⋮ \partial y \partial x 1 n \partial y \partial x 21 \partial y \partial x 22 ⋮ \partial y \partial x 2 n \dots \dots ⋱ \dots \partial y \partial x n 1 \partial y \partial x n 2 ⋮ \partial y \partial x n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\frac {\partial y}{\partial \bf X} =\begin {bmatrix} \frac{\partial y }{\partial x_{11} } & \frac{\partial y }{\partial x_{21} }& \cdots & \frac{\partial y }{\partial x_{n1} } \\ \frac{\partial y}{\partial x_{12} } & \frac{\partial y}{\partial x_{22} } & \cdots & \frac{\partial y}{\partial x_{n2} } \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y }{\partial x_{1n} } & \frac{\partial y }{\partial x_{2n} } & \cdots & \frac{\partial y}{\partial x_{nn} } \end{bmatrix}$

下图是机器学习中常见的矩阵求导形式，可供参考

这里写图片描述

下一篇是关于Hessian矩阵和凸函数的基本概念，待续。

[1] http://blog.csdn.net/u010976453/article/details/54342895
[2] http://blog.csdn.net/u010976453/article/details/78482502
[3] http://blog.csdn.net/u010976453/article/details/54381248
[4] Jacobian矩阵和Hessian矩阵 http://jacoxu.com/jacobian%e7%9f%a9%e9%98%b5%e5%92%8chessian%e7%9f%a9%e9%98%b5/
[5] https://en.wikipedia.org/wiki/Norm_(mathematics)
[6] https://en.wikipedia.org/wiki/Matrix_norm
[7] 机器学习中的线性代数之矩阵求导 http://blog.csdn.net/u010976453/article/details/54381248
[8] 牛顿法与Hessian矩阵http://blog.csdn.net/linolzhang/article/details/60151623