方向导数

设 $l$ 是xoy平面上以 $(x_{0},y_{0})$ 为始点的一条射线， $e_{l}=(cos \alpha, cos \beta)$ 是与 $l$ 同方向的单位向量，射线 $l$ 的参数方程为

x = x_{0} + t c o s α

$x=x_{0}+tcos\alpha$

y = y_{0} + t c o s β

$y=y_{0}+tcos\beta$

t ⩾ 0

$t\geqslant 0$
设函数

z = f (x, y)

$z=f(x,y)$ 在点

P_{0} (x_{0}, y_{0})

$P_{0}(x_{0},y_{0})$ 的某个领域

U (P_{0})

$U(P_{0})$ 内有定义，

P (x_{0} + t c o s α, y_{0} + t c o s β)

$P(x_{0}+tcos\alpha,y_{0}+tcos\beta)$ 为

l

$l$ 上的另一点，且

P \in U (P_{0})

$P\in U(P_{0})$ 。如果函数增量与点

P

$P$ 到点

P_{0}

$P_{0}$ 的距离比值

\frac{f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})}{t}

$\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}$ 当

P

$P$ 沿着

l

$l$ 趋向于

P_{0} (即 t \to 0^{+})

$P_{0}(即t\rightarrow0^{+})$ 时的极限存在，则称此极限为函数

f (x, y)

$f(x,y)$ 在点

P_{0}

$P_{0}$ 沿方向

l

$l$ 的方向倒数，即

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = lim_{t \to 0^{+}} \frac{f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})}{t}

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=\lim_{t \rightarrow 0^{+}}\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}$
证明：

f (x, y)

$f(x,y)$ 在点

P_{0} (x_{0}, y_{0})

$P_{0}(x_{0},y_{0})$ 可微分，那么函数在该点沿任意方向导数

l

$l$ 都存在，且有

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=f_{x}{(x_{0},y_{0})cos\alpha + f_{y}(x_{0},y_{0})cos\beta}$
证：由假设，函数

f (x, y)

$f(x,y)$ 在点

(x_{0}, y_{0})

$(x_{0},y_{0})$ 可微分，故有

f (x_{0} + Δ x ， y_{0} + Δ y) - f (x_{0}, y_{0}) = f_{x} (x_{0}, y_{0}) Δ x + f_{y} (x_{0}, y_{0}) Δ y + o (\sqrt{(Δ x)^{2} + (Δ y)^{2}})

$f(x_{0}+\Delta x，y_{0}+\Delta y)-f(x_{0},y_{0})=f_{x}(x_{0},y_{0})\Delta x+f_{y}(x_{0},y_{0})\Delta y+o(\sqrt{(\Delta x)^{2}+(\Delta y)^{2}})$
在方向

l

$l$ 上，有

Δ x = t c o s α, Δ y = t c o s β, \sqrt{(Δ x)^{2} + (Δ y)^{2}} = t

$\Delta x=tcos\alpha,\Delta y=tcos\beta, \sqrt{(\Delta x)^{2}+(\Delta y)^{2}}=t$

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = lim_{t \to 0^{+}} \frac{f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})}{t} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=\lim_{t \rightarrow 0^{+}}\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}=f_{x}{(x_{0},y_{0})cos\alpha + f_{y}(x_{0},y_{0})cos\beta}$

梯度

二元函数的情形下，设函数 $f(x,y)$ 在平面区域D中具有一阶连续偏导数，则对于每一点 $P_{0}(x_{0},y_{0})\in D$ ，都可定出一个向量

f_{x} (x_{0}, y_{0}) i + f_{y} (x_{0}, y_{0}) j

$f_{x}(x_{0},y_{0})i+f_{y}(x_{0},y_{0})j$ 这向量称为函数

f (x, y)

$f(x,y)$ 在点

P_{0} (x_{0}, y_{0})

$P_{0}(x_{0},y_{0})$ 的梯度，记为

\nabla f (x_{0}, y_{0})

$\nabla f(x_{0},y_{0})$
由

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β = \nabla f (x_{0}, y_{0}) \cdot e_{l} = | \nabla f (x_{0}, y_{0}) | c o s θ

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=f_{x}{(x_{0},y_{0})cos\alpha + f_{y}(x_{0},y_{0})cos\beta}=\nabla f(x_{0},y_{0}) \cdot e_{l}=\left |\nabla f(x_{0},y_{0}) \right |cos\theta$

θ = (\nabla f (x_{0}, y_{0}) \hat{,} e_{l})

$\theta=(\nabla f(x_{0},y_{0})\hat{,} e_{l})$
因此得出结论：
当

θ = 0

$\theta=0$ 时，即单位向量

e_{l}

$e_{l}$ 的方向与梯度方向相同，函数

f (x, y)

$f(x,y)$ 增加最快，函数在这个方向的方向导数达到最大值

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = | \nabla f (x_{0}, y_{0}) |

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=\left |\nabla f(x_{0},y_{0}) \right |$ ；当

θ = π

$\theta=\pi$ 时，即单位向量

e_{l}

$e_{l}$ 的方向与梯度方向相反，函数

f (x, y)

$f(x,y)$ 减小最快，函数在这个方向的方向导数达到最小值

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = - | \nabla f (x_{0}, y_{0}) |

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=-\left |\nabla f(x_{0},y_{0}) \right |$

梯度下降优化

对参数 $x和y$ 进行优化，从而使得 $f(x,y)$ 得到最小值

对于每一次优化， $(x,y)$ 都会向当前减小最快的方向移动。首先计算 $(x_{0},y_{0})$ 点的梯度 $\nabla f(x_{0},y_{0})$

\nabla f (x_{0}, y_{0}) = f_{x} (x_{0}, y_{0}) i + f_{y} (x_{0}, y_{0}) j

$\nabla f(x_{0},y_{0})=f_{x}(x_{0},y_{0})i+f_{y}(x_{0},y_{0})j$ 点

(x_{0}, y_{0})

$(x_{0},y_{0})$ 沿梯度方向移动

η | \nabla f (x_{0}, y_{0}) |

$\eta \left |\nabla f(x_{0},y_{0}) \right |$ 的距离，其中

η

$\eta$ 是学习率，用于控制参数移动的多少。对应于：

x : x - η f_{x} (x_{0}, y_{0})

$x:x-\eta f_{x}(x_{0},y_{0})$

y : y - η f_{y} (x_{0}, y_{0})

$y:y-\eta f_{y}(x_{0},y_{0})$
通过每一次的优化，参数

x 和 y

$x和y$ 就会逐渐移动到

f (x, y)

$f(x,y)$ 最低点

梯度下降原理推导

方向导数

梯度

梯度下降优化

猜你喜欢