导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法,然后顺着扯出了一堆高数的相关概念理论:导数、偏导数、全微分、方向导数、梯度,重新回顾它们之间的一些关系,从网上和教材中摘录相关知识点。

  1. 通过函数的极限定义出导数(以一元函数为例)
  2. 函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0处可导
  3. 扩展到多元函数时,衍生出偏导数

导数

定义:设函数 y = f ( x ) 在点 x 0 的某个领域内有定义,如果 Δ y Δ x 在当 Δ x ->0时极限存在,则称函数 y = f ( x ) x 0 处可导,这个极限是函数 y = f ( x ) x 0 处的导数

f ( x 0 ) = lim Δ x 0 Δ y Δ x = lim Δ x 0 f ( x 0 + Δ x ) f ( x 0 ) Δ x

根据导数的定义,从某种意义上说导数的本质是一种极限

导数与导函数的关系是局部与整体的关系,导数通常是指一点,导函数则是指一个区间上的

  • 在直线运动场景中,若x表示时刻,y表示距离,函数f表示时间与距离的关系 y = f ( x ) ,那么导数的含义就是在 x 0 时刻的瞬时速度
  • 在直角坐标系中, y = f ( x ) 表示一个曲线,导数的含义表示的是曲线在点 x 0 处的切线的斜率

微分

定义:设函数 y = f ( x ) 在某个领域内有定义, x 0 x 0 + Δ x 在这区间内,如果增量

Δ y = f ( x 0 + x ) f ( x 0 )

可表示为
Δ y = A Δ x + o ( Δ x )

其中A是不依赖 Δ x 的常数, o ( Δ x ) 是指 Δ x 趋于0时的高阶无穷小,那么称函数 y = f ( x ) 在点 x 0 可微的,而 A Δ x 叫做函数在点 x 0 相应于自变量增量 Δ x 微分,记作 d y ,记作
d y = A Δ x

高阶无穷小的定义:如果 lim α β = 0 ,就说 β 是比 α 高阶的无穷小,记作 β = o ( α )

微分与导数的关系

上式 Δ y = A Δ x + o ( Δ x ) 两边同时除以 Δ x 得到

Δ y Δ x = A + o ( Δ x ) Δ x

Δ x 0 时,上式左边就是导数的定义,而右边的 o ( Δ x ) Δ x 因为是高阶无穷小,所以会趋向于0,得到以下等式
A = lim Δ x 0 Δ y Δ x = f ( x 0 )

因此,如果函数 f ( x ) 在点 x 0 可微,则 f ( x ) 在点 x 0 也一定可导,且 A = f ( x 0 ) ,反之,如果 f ( x ) 在点 x 0 可导,存在下式
lim Δ x 0 Δ y Δ x = f ( x 0 )

根据极限与无穷小的关系转化上式,当 Δ x 0
Δ y Δ x = f ( x 0 ) + α

其中 lim Δ x 0 a = 0 ,即 lim Δ x 0 a Δ x Δ x = 0 , a Δ x = o ( Δ x ) ,上式转化为下式(又回到了微分的定义)
Δ y = f ( x 0 ) Δ x + o ( Δ x )

因此, 函数 f ( x ) 在点 x 0 可微的充分必要条件是函数 f ( x ) 在点 x 0 可导
d y = f ( x 0 ) Δ x

偏导数

一元函数的变化率是导数,多元函数的自变量有多个,当某个自变量x变化而其它自变量固定时,这时候对变化的自变量x进行求导,就称为多元函数对于x的偏导数。
定义:设函数 z = f ( x , y ) 在点 ( x 0 , y 0 ) 的某一领域内有定义,当 y 固定于 y 0 ,而 x x 0 处有增量 Δ x ,相应的函数有增量

f ( x 0 + Δ x , y 0 ) f ( x 0 , y 0 )

如果
lim Δ x 0 f ( x 0 + Δ x , y 0 ) f ( x 0 , y 0 ) Δ x

存在,则称该极限为 z = f ( x , y ) 在点 ( x 0 , y 0 ) 处对 x 的偏导数

偏导数的几何意义

这里写图片描述

  • 偏导数 f x ( x 0 , y 0 ) 就是曲面被平面 y = y 0 所截得的曲线在点 M 0 处的切线 M 0 T x x 轴的斜率
  • 偏导数 f y ( x 0 , y 0 ) 就是曲面被平面 x = x 0 所截得的曲线在点 M 0 处的切线 M 0 T y y 轴的斜率

很多时候要考虑多元函数沿任意方向的变化率,那么就引出了方向导数

全微分

参考上文微分的定义,与一元函数的情形一样,希望用自变量增量 Δ x , Δ y 来线性函数来代替函数的全增量 Δ z ,从而减化计算
定义:设函数 z = f ( x , y ) 在点 ( x , y ) 的某领域内有定义如果函数在点 ( x , y ) 的全增量

Δ z = f ( x + Δ x , y + Δ y ) f ( x , y )

可心表示为
Δ z = A Δ x + B Δ y + o ( ρ )

其中 A , B 不依赖于 Δ x , Δ y ρ = ( Δ x ) 2 + ( Δ y ) 2 ,则称函数 z = f ( x , y ) 在点 ( x , y ) 可微分,而 A Δ x + B Δ y 称为函数在点 ( x , y ) 全微分
d z = A Δ x + B Δ y

可微分与偏导数关系

基于上述全微分定义成立,存在某一点 p ( x + Δ x , y + Δ y ) 对于式子 Δ z = A Δ x + B Δ y + o ( ρ ) 也成立,当 Δ y = 0

f ( Δ x + x , y ) f ( x , y ) = A Δ X + o ( | Δ x | )

两边除以 Δ x 并且令 Δ x 0 取极限
lim Δ x 0 f ( x + Δ x , y ) f ( x , y ) Δ x = A

这式子就是偏导数的定义形式啊,所以这说明了偏导数 f x ( x , y ) 存在且等于 A ,同理也可证 f y ( x , y ) = B ,由此推导出以下公式
d z = f x ( x , y ) Δ x + f y ( x , y ) Δ y

各偏导数的存在只是全微分存在的必要条件而非充分条件,即由全微分可证各偏导数存在,反之则不行

如果函数的各个偏数在点 ( x , y ) 是连续的,则函数可微分

方向导数

定义导数、偏导数、方向导数都是说如果说某条件下极限存在,谨记导数的本质是极限及代表函数的变化率,偏导数反映的是函数沿坐标轴方向的变化率,有所限制,所以引入方向导数表示沿任意一方向的变化率
定义:设 l x O y 平面以 P 0 ( x 0 , y 0 ) 为始点的一条射线, e i = ( c o s α , c o s β ) 是以射线同方向的单位向量

这里写图片描述

射线 l 的参数方程为

{ x = x 0 + t c o s α t 0 y = y 0 + t c o s β t 0

如果函数增量 f ( x 0 + t c o s α , y 0 + t c o s β ) f ( x 0 , y 0 ) P P 0 的距离 | P P 0 | = t 的比值,当点 P 沿着 l 趋于 P 0 ( t 0 + ) 极限存在,则称此极限为函数在点 P 0 沿方向 l 的方向导数
f l | ( x 0 , y 0 ) = lim t 0 + f ( x 0 + t c o s α , y 0 + t c o s β ) f ( x 0 , y 0 ) t

方向导数与全微分的关系

由全微分的定义得到

f ( x 0 + Δ x , y 0 + Δ y ) f ( x 0 , y 0 ) = f x ( x 0 , y 0 ) Δ x + f y ( x 0 , y 0 ) Δ y + o ( ( Δ x ) 2 + ( Δ y ) 2 )

设点 ( x 0 + Δ x , y 0 + Δ y ) 在以 ( x 0 , y 0 ) 为起点的射线 l ( c o s α , c o s β l ) 上,则有 Δ x = t c o s α , Δ y = t c o s β , ( Δ x ) 2 + ( Δ y ) 2 = t ,所以
lim t 0 + f ( x 0 + Δ x , y 0 + Δ y ) f ( x 0 , y 0 ) t = f x ( x 0 , y 0 ) c o s α + f y ( x 0 , y 0 ) c o s β

上式左侧就是方向导数定义形式,极限存在即方向导数存在,且其值等于右式

由此得到定理,如果函数 f ( x , y ) 在点 P 0 ( x 0 , y 0 ) 可微分,那么函数在该点沿任一方向 l 的方向导数存在

f l | ( x 0 , y 0 ) = f x ( x 0 , y 0 ) c o s α + f y ( x 0 , y 0 ) c o s β

梯度

在平面上确定某一点可能存在无数个方向导数,我们怎样找到其中一个方向导数来描述函数最大变化率?
定义:在二元函数的情形, 设函数 f ( x , y ) 在平面区域D内具有一阶连续偏导数,对于每一点 P 0 ( x 0 , y 0 ) D ,都可以给出一个向量

f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j ( f x ( x 0 , y 0 ) , f y ( x 0 , y 0 ) )

其中 i , j x , y 轴的方向向量,上述微量称为函数 f ( x , y ) 在点 P 0 ( x 0 , y 0 ) 的梯度记作
g r a d f ( x 0 , y 0 ) = f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j

由定义看到,梯度的方向是确定的,如果点 P 的坐标确定,那么梯度也大小也确定

如果函数 f ( x , y ) 在点 P 0 ( x 0 , y 0 ) 可微分, e l = ( c o s α , c o s β ) 是方向 l 的方向向量(方向未确定)

f l | ( x 0 , y 0 ) = f x ( x 0 , y 0 ) c o s α + f y ( x 0 , y 0 ) c o s β = g r a d   f ( x 0 , y 0 ) . e l = | g r a d   f ( x 0 , y 0 ) | c o s θ

其中 θ 为向量 g r a d   f ( x 0 , y 0 ) 与向量 e l 的夹角,当 θ = 0 时,即方向 e l 与梯度 g r a d   f ( x 0 , y 0 ) 的方向时,函数 f ( x , y ) 增加最快,函数在这个方向的方向导数达到最大值,这个值就是梯度 g r a d   f ( x 0 , y 0 ) 的模,即
f l | ( x 0 , y 0 ) = | g r a d   f ( x 0 , y 0 ) |

所以可以用沿梯度方向的方向导数来描述是函数最大变化率,即梯度方向是函数变化率最大的方向,在梯度定义的时候就已经赋予了它这个特性。

猜你喜欢

转载自blog.csdn.net/czmacd/article/details/81178650