导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法，然后顺着扯出了一堆高数的相关概念理论：导数、偏导数、全微分、方向导数、梯度，重新回顾它们之间的一些关系，从网上和教材中摘录相关知识点。

通过函数的极限定义出导数(以一元函数为例)
函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0处可导
扩展到多元函数时，衍生出偏导数

导数

定义：设函数 $y=f(x)$ 在点 $x_0$ 的某个领域内有定义，如果 $\frac{Δy}{Δx}$ 在当 $Δx$ ->0时极限存在，则称函数 $y=f(x)$ 在 $x_0$ 处可导，这个极限是函数 $y=f(x)$ 在 $x_0$ 处的导数

f^{'} (x_{0}) = lim_{Δ x \to 0} \frac{Δ y}{Δ x} = lim_{Δ x \to 0} \frac{f (x_{0} + Δ x) - f (x_{0})}{Δ x}

$f'(x_0)=\lim \limits_{Δx \to 0} \frac{Δy}{Δx}=\lim \limits_{Δx \to 0} \frac{f(x_0+Δx)-f(x_0)}{Δx}$

根据导数的定义，从某种意义上说导数的本质是一种极限

导数与导函数的关系是局部与整体的关系，导数通常是指一点，导函数则是指一个区间上的

在直线运动场景中，若x表示时刻，y表示距离，函数f表示时间与距离的关系 $y=f(x)$ ,那么导数的含义就是在 $x_0$ 时刻的瞬时速度
在直角坐标系中， $y=f(x)$ 表示一个曲线，导数的含义表示的是曲线在点 $x_0$ 处的切线的斜率

微分

定义：设函数 $y=f(x)$ 在某个领域内有定义， $x_0$ 及 $x_0+Δx$ 在这区间内，如果增量

Δ y = f (x_{0} + x) - f (x_{0})

$Δy=f(x_0+x)-f(x_0)$
可表示为

Δ y = A Δ x + o (Δ x)

$Δy=AΔx+o(Δx)$
其中A是不依赖

Δ x

$Δx$ 的常数，

o (Δ x)

$o(Δx)$ 是指

Δ x

$Δx$ 趋于0时的高阶无穷小，那么称函数

y = f (x)

$y=f(x)$ 在点

x_{0}

$x_0$ 是 可微的，而

A Δ x

$AΔx$ 叫做函数在点

x_{0}

$x_0$ 相应于自变量增量

Δ x

$Δx$ 的 微分，记作

d y

$\mathrm{d} y$ ，记作

d y = A Δ x

$\mathrm{d}y=AΔx$

高阶无穷小的定义：如果 $\lim \limits \frac{\alpha}{\beta}=0$ ，就说 $\beta$ 是比 $\alpha$ 高阶的无穷小，记作 $\beta=o(\alpha)$

微分与导数的关系

上式 $Δy=AΔx+o(Δx)$ 两边同时除以 $Δx$ 得到

\frac{Δ y}{Δ x} = A + \frac{o (Δ x)}{Δ x}

$\frac{Δy}{Δx}=A+\frac{o(Δx)}{Δx}$
当

Δ x \to 0

$Δx \to 0$ 时,上式左边就是导数的定义，而右边的

\frac{o (Δ x)}{Δ x}

$\frac{o(Δx)}{Δx}$ 因为是高阶无穷小，所以会趋向于0，得到以下等式

A = lim_{Δ x \to 0} \frac{Δ y}{Δ x} = f^{'} (x_{0})

$A=\lim \limits_{Δx \to 0}\frac{Δy}{Δx}=f'(x_0)$
因此，如果函数

f (x)

$f(x)$ 在点

x_{0}

$x_0$ 可微，则

f (x)

$f(x)$ 在点

x_{0}

$x_0$ 也一定可导，且

A = f^{'} (x_{0})

$A=f'(x_0)$ ，反之，如果

f (x)

$f(x)$ 在点

x_{0}

$x_0$ 可导，存在下式

lim_{Δ x \to 0} \frac{Δ y}{Δ x} = f^{'} (x_{0})

$\lim \limits_{Δx \to 0}\frac{Δy}{Δx}=f'(x_0)$
根据极限与无穷小的关系转化上式，当

Δ x \to 0

$Δx \to 0$ 时

\frac{Δ y}{Δ x} = f^{'} (x_{0}) + α

$\frac{Δy}{Δx}=f'(x_0)+\alpha$
其中

lim_{Δ x \to 0} a = 0

$\lim \limits_{Δx \to 0}a=0$ ，即

lim_{Δ x \to 0} \frac{a Δ x}{Δ x} = 0

$\lim \limits_{Δx \to 0}\frac{aΔx}{Δx}=0$ ,

a Δ x = o (Δ x)

$aΔx=o(Δx)$ ，上式转化为下式(又回到了微分的定义)

Δ y = f^{'} (x_{0}) Δ x + o (Δ x)

$Δy=f'(x_0)Δx+o(Δx)$
因此， 函数 $f(x)$ 在点 $x_0$ 可微的充分必要条件是函数 $f(x)$ 在点 $x_0$ 可导

d y = f^{'} (x_{0}) Δ x

$\mathrm{d}y=f'(x_0)Δx$

偏导数

一元函数的变化率是导数，多元函数的自变量有多个，当某个自变量x变化而其它自变量固定时，这时候对变化的自变量x进行求导，就称为多元函数对于x的偏导数。
定义：设函数 $z=f(x,y)$ 在点 $(x_0,y_0)$ 的某一领域内有定义，当 $y$ 固定于 $y_0$ ，而 $x$ 在 $x_0$ 处有增量 $Δx$ ，相应的函数有增量

f (x_{0} + Δ x, y_{0}) - f (x_{0}, y_{0})

$f(x_0+Δx,y_0)-f(x_0,y_0)$
如果

lim_{Δ x \to 0} \frac{f (x_{0} + Δ x, y_{0}) - f (x_{0}, y_{0})}{Δ x}

$\lim \limits_{Δx \to 0}\frac{f(x_0+Δx,y_0)-f(x_0,y_0)}{Δx}$
存在，则称该极限为

z = f (x, y)

$z=f(x,y)$ 在点

(x_{0}, y_{0})

$(x_0,y_0)$ 处对

x

$x$ 的偏导数

偏导数的几何意义

偏导数 $f_{x} (x_{0},y_{0} )$ 就是曲面被平面 $y=y_{0}$ 所截得的曲线在点 $M_{0}$ 处的切线 $M_{0}T_{x}$ 对 $x$ 轴的斜率
偏导数 $f_{y} (x_{0},y_{0} )$ 就是曲面被平面 $x=x_{0}$ 所截得的曲线在点 $M_{0}$ 处的切线 $M_{0}T_{y}$ 对 $y$ 轴的斜率

很多时候要考虑多元函数沿任意方向的变化率，那么就引出了方向导数

全微分

参考上文微分的定义，与一元函数的情形一样，希望用自变量增量 $Δx,Δy$ 来线性函数来代替函数的全增量 $Δz$ ，从而减化计算
定义：设函数 $z=f(x,y)$ 在点 $(x,y)$ 的某领域内有定义如果函数在点 $(x,y)$ 的全增量

Δ z = f (x + Δ x, y + Δ y) - f (x, y)

$Δz=f(x+Δx,y+Δy)-f(x,y)$
可心表示为

Δ z = A Δ x + B Δ y + o (ρ)

$Δz=AΔx+BΔy+o(\rho)$
其中

A, B

$A,B$ 不依赖于

Δ x, Δ y

$Δx,Δy$ ，

ρ = \sqrt{(Δ x)^{2} + (Δ y)^{2}}

$\rho=\sqrt{(Δx)^2+(Δy)^2}$ ，则称函数

z = f (x, y)

$z=f(x,y)$ 在点

(x, y)

$(x,y)$ 处 可微分，而

A Δ x + B Δ y

$AΔx+BΔy$ 称为函数在点

(x, y)

$(x,y)$ 的 全微分

d z = A Δ x + B Δ y

$\mathrm{d}z=AΔx+BΔy$

可微分与偏导数关系

基于上述全微分定义成立，存在某一点 $p'(x+Δx,y+Δy)$ 对于式子 $Δz=AΔx+BΔy+o(\rho)$ 也成立，当 $Δy=0$ 时

f (Δ x + x, y) - f (x, y) = A Δ X + o (| Δ x |)

$f(Δx+x,y)-f(x,y)=AΔX+o(|Δx|)$
两边除以

Δ x

$Δx$ 并且令

Δ x \to 0

$Δx \to 0$ 取极限

lim_{Δ x \to 0} \frac{f (x + Δ x, y) - f (x, y)}{Δ x} = A

$\lim \limits_{Δx \to 0}\frac{f(x+Δx,y)-f(x,y)}{Δx}=A$
这式子就是偏导数的定义形式啊，所以这说明了偏导数

f_{x} (x, y)

$f_x(x,y)$ 存在且等于

A

$A$ ，同理也可证

f_{y} (x, y) = B

$f_y(x,y)=B$ ，由此推导出以下公式

d z = f_{x} (x, y) Δ x + f_{y} (x, y) Δ y

$\mathrm{d}z=f_x(x,y)Δx+f_y(x,y)Δy$

各偏导数的存在只是全微分存在的必要条件而非充分条件，即由全微分可证各偏导数存在，反之则不行

如果函数的各个偏数在点 $(x,y)$ 是连续的，则函数可微分

方向导数

定义导数、偏导数、方向导数都是说如果说某条件下极限存在，谨记导数的本质是极限及代表函数的变化率，偏导数反映的是函数沿坐标轴方向的变化率，有所限制，所以引入方向导数表示沿任意一方向的变化率
定义：设 $l$ 是 $xOy$ 平面以 $P_0(x_0,y_0)$ 为始点的一条射线， $e_i=(cos\alpha,cos\beta)$ 是以射线同方向的单位向量

射线 $l$ 的参数方程为

{\begin{cases} x = x_{0} + t c o s α ， t \geq 0 \\ y = y_{0} + t c o s β ， t \geq 0 \end{cases}

$\begin{cases}x=x_0+tcos\alpha ，t\geq0\\ y=y_0+tcos\beta，t\geq0 \end{cases}$
如果函数增量

f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})

$f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)$ 与

P

$P$ 到

P_{0}

$P_0$ 的距离

| P P_{0} | = t

$|PP_0|=t$ 的比值，当点

P

$P$ 沿着

l

$l$ 趋于

P_{0} (即 t \to 0^{+})

$P_0(即t \to 0^+)$ 时 极限存在，则称此极限为函数在点

P_{0}

$P_0$ 沿方向

l

$l$ 的方向导数

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = lim_{t \to 0^{+}} \frac{f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})}{t}

$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=\lim \limits_{t \to 0^+}\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)}{t}$

方向导数与全微分的关系

由全微分的定义得到

f (x_{0} + Δ x, y_{0} + Δ y) - f (x_{0}, y_{0}) = f_{x} (x_{0}, y_{0}) Δ x + f_{y} (x_{0}, y_{0}) Δ y + o (\sqrt{(Δ x)^{2} + (Δ y)^{2}})

$f(x_0+Δx,y_0+Δy)-f(x_0,y_0)=f_x(x_0,y_0)Δx+f_y(x_0,y_0)Δy+o(\sqrt{(Δx)^2+(Δy)^2})$
设点

(x_{0} + Δ x, y_{0} + Δ y)

$(x_0+Δx,y_0+Δy)$ 在以

(x_{0}, y_{0})

$(x_0,y_0)$ 为起点的射线

l (c o s α, c o s β 是 l 的 方 向 余 弦)

$l(cos\alpha,cos\beta是l的方向余弦)$ 上，则有

Δ x = t c o s α

$Δx=tcos\alpha$ ,

Δ y = t c o s β

$Δy=tcos\beta$ ,

\sqrt{(Δ x)^{2} + (Δ y)^{2}} = t

$\sqrt{(Δx)^2+(Δy)^2}=t$ ，所以

lim_{t \to 0^{+}} \frac{f (x_{0} + Δ x, y_{0} + Δ y) - f (x_{0}, y_{0})}{t} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β

$\lim \limits_{t \to 0^+}\frac{f(x_0+Δx,y_0+Δy)-f(x_0,y_0)}{t}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta$
上式左侧就是方向导数定义形式，极限存在即方向导数存在，且其值等于右式

由此得到定理，如果函数 $f(x,y)$ 在点 $P_0(x_0,y_0)$ 可微分，那么函数在该点沿任一方向 $l$ 的方向导数存在

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β

$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta$

梯度

在平面上确定某一点可能存在无数个方向导数，我们怎样找到其中一个方向导数来描述函数最大变化率？
定义：在二元函数的情形，设函数 $f(x,y)$ 在平面区域D内具有一阶连续偏导数，对于每一点 $P_0(x_0,y_0)\in D$ ，都可以给出一个向量

f_{x} (x_{0}, y_{0}) i + f_{y} (x_{0}, y_{0}) j 或 用 坐 标 表 示 (f_{x} (x_{0}, y_{0}), f_{y} (x_{0}, y_{0}))

$f_x(x_0,y_0)i+f_y(x_0,y_0)j \quad 或用坐标表示 \quad (f_x(x_0,y_0),f_y(x_0,y_0))$
其中

i, j

$i,j$ 为

x, y

$x,y$ 轴的方向向量，上述微量称为函数

f (x, y)

$f(x,y)$ 在点

P_{0} (x_{0}, y_{0})

$P_0(x_0,y_0)$ 的梯度记作

g r a d f (x_{0}, y_{0}) = f_{x} (x_{0}, y_{0}) i + f_{y} (x_{0}, y_{0}) j

$gradf(x_0,y_0)=f_x(x_0,y_0)i+f_y(x_0,y_0)j$
由定义看到，梯度的方向是确定的，如果点 $P$ 的坐标确定，那么梯度也大小也确定

如果函数 $f(x,y)$ 在点 $P_0(x_0,y_0)$ 可微分， $e_l=(cos\alpha,cos\beta)$ 是方向 $l$ 的方向向量(方向未确定)

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β = g r a d f (x_{0}, y_{0}) . e_{l} = | g r a d f (x_{0}, y_{0}) | c o s θ

$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta=grad\ f(x_0,y_0).e_l=|grad\ f(x_0,y_0)|cos\theta$
其中

θ

$\theta$ 为向量

g r a d f (x_{0}, y_{0})

${grad\ f(x_0,y_0)}$ 与向量

e_{l}

$e_l$ 的夹角，当

θ = 0

$\theta=0$ 时，即方向

e_{l}

$e_l$ 与梯度

g r a d f (x_{0}, y_{0})

${grad\ f(x_0,y_0)}$ 的方向时，函数

f (x, y)

$f(x,y)$ 增加最快，函数在这个方向的方向导数达到最大值，这个值就是梯度

g r a d f (x_{0}, y_{0})

${grad\ f(x_0,y_0)}$ 的模，即

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = | g r a d f (x_{0}, y_{0}) |

$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=|grad \ f(x_0,y_0)|$

所以可以用沿梯度方向的方向导数来描述是函数最大变化率，即梯度方向是函数变化率最大的方向，在梯度定义的时候就已经赋予了它这个特性。