学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法,然后顺着扯出了一堆高数的相关概念理论:导数、偏导数、全微分、方向导数、梯度,重新回顾它们之间的一些关系,从网上和教材中摘录相关知识点。
- 通过函数的极限定义出导数(以一元函数为例)
- 函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0处可导
- 扩展到多元函数时,衍生出偏导数
导数
定义:设函数
y=f(x)
在点
x0
的某个领域内有定义,如果
ΔyΔx
在当
Δx
->0时极限存在,则称函数
y=f(x)
在
x0
处可导,这个极限是函数
y=f(x)
在
x0
处的导数
f′(x0)=limΔx→0ΔyΔx=limΔx→0f(x0+Δx)−f(x0)Δx
根据导数的定义,从某种意义上说导数的本质是一种极限
导数与导函数的关系是局部与整体的关系,导数通常是指一点,导函数则是指一个区间上的
- 在直线运动场景中,若x表示时刻,y表示距离,函数f表示时间与距离的关系
y=f(x)
,那么导数的含义就是在
x0
时刻的瞬时速度
- 在直角坐标系中,
y=f(x)
表示一个曲线,导数的含义表示的是曲线在点
x0
处的切线的斜率
微分
定义:设函数
y=f(x)
在某个领域内有定义,
x0
及
x0+Δx
在这区间内,如果增量
Δy=f(x0+x)−f(x0)
可表示为
Δy=AΔx+o(Δx)
其中A是不依赖
Δx
的常数,
o(Δx)
是指
Δx
趋于0时的高阶无穷小,那么称函数
y=f(x)
在点
x0
是
可微
的,而
AΔx
叫做函数在点
x0
相应于自变量增量
Δx
的
微分
,记作
dy
,记作
dy=AΔx
高阶无穷小的定义:如果
limαβ=0
,就说
β
是比
α
高阶的无穷小,记作
β=o(α)
微分与导数的关系
上式
Δy=AΔx+o(Δx)
两边同时除以
Δx
得到
ΔyΔx=A+o(Δx)Δx
当
Δx→0
时,上式左边就是导数的定义,而右边的
o(Δx)Δx
因为是高阶无穷小,所以会趋向于0,得到以下等式
A=limΔx→0ΔyΔx=f′(x0)
因此,如果函数
f(x)
在点
x0
可微,则
f(x)
在点
x0
也一定可导,且
A=f′(x0)
,反之,如果
f(x)
在点
x0
可导,存在下式
limΔx→0ΔyΔx=f′(x0)
根据极限与无穷小的关系转化上式,当
Δx→0
时
ΔyΔx=f′(x0)+α
其中
limΔx→0a=0
,即
limΔx→0aΔxΔx=0
,
aΔx=o(Δx)
,上式转化为下式(又回到了微分的定义)
Δy=f′(x0)Δx+o(Δx)
因此,
函数
f(x)
在点
x0
可微的充分必要条件是函数
f(x)
在点
x0
可导
dy=f′(x0)Δx
偏导数
一元函数的变化率是导数,多元函数的自变量有多个,当某个自变量x变化而其它自变量固定时,这时候对变化的自变量x进行求导,就称为多元函数对于x的偏导数。
定义:设函数
z=f(x,y)
在点
(x0,y0)
的某一领域内有定义,当
y
固定于
y0
,而
x
在
x0
处有增量
Δx
,相应的函数有增量
f(x0+Δx,y0)−f(x0,y0)
如果
limΔx→0f(x0+Δx,y0)−f(x0,y0)Δx
存在,则称该极限为
z=f(x,y)
在点
(x0,y0)
处对
x
的偏导数
偏导数的几何意义
- 偏导数
fx(x0,y0)
就是曲面被平面
y=y0
所截得的曲线在点
M0
处的切线
M0Tx
对
x
轴的斜率
- 偏导数
fy(x0,y0)
就是曲面被平面
x=x0
所截得的曲线在点
M0
处的切线
M0Ty
对
y
轴的斜率
很多时候要考虑多元函数沿任意方向的变化率,那么就引出了方向导数
全微分
参考上文微分的定义,与一元函数的情形一样,希望用自变量增量
Δx,Δy
来线性函数来代替函数的全增量
Δz
,从而减化计算
定义:设函数
z=f(x,y)
在点
(x,y)
的某领域内有定义如果函数在点
(x,y)
的全增量
Δz=f(x+Δx,y+Δy)−f(x,y)
可心表示为
Δz=AΔx+BΔy+o(ρ)
其中
A,B
不依赖于
Δx,Δy
,
ρ=(Δx)2+(Δy)2−−−−−−−−−−−−√
,则称函数
z=f(x,y)
在点
(x,y)
处
可微分
,而
AΔx+BΔy
称为函数在点
(x,y)
的
全微分
dz=AΔx+BΔy
可微分与偏导数关系
基于上述全微分定义成立,存在某一点
p′(x+Δx,y+Δy)
对于式子
Δz=AΔx+BΔy+o(ρ)
也成立,当
Δy=0
时
f(Δx+x,y)−f(x,y)=AΔX+o(|Δx|)
两边除以
Δx
并且令
Δx→0
取极限
limΔx→0f(x+Δx,y)−f(x,y)Δx=A
这式子就是偏导数的定义形式啊,所以这说明了偏导数
fx(x,y)
存在且等于
A
,同理也可证
fy(x,y)=B
,由此推导出以下公式
dz=fx(x,y)Δx+fy(x,y)Δy
各偏导数的存在只是全微分存在的必要条件而非充分条件,即由全微分可证各偏导数存在,反之则不行
如果函数的各个偏数在点
(x,y)
是连续的,则函数可微分
方向导数
定义导数、偏导数、方向导数都是说如果说某条件下极限存在,谨记导数的本质是极限及代表函数的变化率,偏导数反映的是函数沿坐标轴方向的变化率,有所限制,所以引入方向导数表示沿任意一方向的变化率
定义:设
l
是
xOy
平面以
P0(x0,y0)
为始点的一条射线,
ei=(cosα,cosβ)
是以射线同方向的单位向量
射线
l
的参数方程为
{x=x0+tcosα,t≥0y=y0+tcosβ,t≥0
如果函数增量
f(x0+tcosα,y0+tcosβ)−f(x0,y0)
与
P
到
P0
的距离
|PP0|=t
的比值,当点
P
沿着
l
趋于
P0(即t→0+)
时
极限存在,则称此极限为函数在点
P0
沿方向
l
的方向导数
∂f∂l|(x0,y0)=limt→0+f(x0+tcosα,y0+tcosβ)−f(x0,y0)t
方向导数与全微分的关系
由全微分的定义得到
f(x0+Δx,y0+Δy)−f(x0,y0)=fx(x0,y0)Δx+fy(x0,y0)Δy+o((Δx)2+(Δy)2−−−−−−−−−−−−√)
设点
(x0+Δx,y0+Δy)
在以
(x0,y0)
为起点的射线
l(cosα,cosβ是l的方向余弦)
上,则有
Δx=tcosα
,
Δy=tcosβ
,
(Δx)2+(Δy)2−−−−−−−−−−−−√=t
,所以
limt→0+f(x0+Δx,y0+Δy)−f(x0,y0)t=fx(x0,y0)cosα+fy(x0,y0)cosβ
上式左侧就是方向导数定义形式,极限存在即方向导数存在,且其值等于右式
由此得到定理,如果函数
f(x,y)
在点
P0(x0,y0)
可微分,那么函数在该点沿任一方向
l
的方向导数存在
∂f∂l|(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ
梯度
在平面上确定某一点可能存在无数个方向导数,我们怎样找到其中一个方向导数来描述函数最大变化率?
定义:在二元函数的情形, 设函数
f(x,y)
在平面区域D内具有一阶连续偏导数,对于每一点
P0(x0,y0)∈D
,都可以给出一个向量
fx(x0,y0)i+fy(x0,y0)j或用坐标表示(fx(x0,y0),fy(x0,y0))
其中
i,j
为
x,y
轴的方向向量,上述微量称为函数
f(x,y)
在点
P0(x0,y0)
的梯度记作
gradf(x0,y0)=fx(x0,y0)i+fy(x0,y0)j
由定义看到,梯度的方向是确定的,如果点
P
的坐标确定,那么梯度也大小也确定
如果函数
f(x,y)
在点
P0(x0,y0)
可微分,
el=(cosα,cosβ)
是方向
l
的方向向量(方向未确定)
∂f∂l|(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ=grad f(x0,y0).el=|grad f(x0,y0)|cosθ
其中
θ
为向量
grad f(x0,y0)
与向量
el
的夹角,当
θ=0
时,即方向
el
与梯度
grad f(x0,y0)
的方向时,函数
f(x,y)
增加最快,函数在这个方向的方向导数达到最大值,这个值就是梯度
grad f(x0,y0)
的模,即
∂f∂l|(x0,y0)=|grad f(x0,y0)|
所以可以用沿梯度方向的方向导数来描述是函数最大变化率,即梯度方向是函数变化率最大的方向,在梯度定义的时候就已经赋予了它这个特性。