微积分相关知识

一、导数概念

1.1、定义

1)当函数自变量△x趋近于0时,如果存在式子里面的值,则成为函数可导
在这里插入图片描述
在这里插入图片描述
2)导数分为左导数(从左趋向于0)和右导数(从右趋向于0)
3)绝对值函数f(x)=|x|,左导数为-1,右导数为1,0的位置不可导
4)Relu函数 max(0,x)
在这里插入图片描述

1.2、几何意义

即切线的斜率
在这里插入图片描述

1.3、物理意义

瞬时速度=瞬时位移距离/瞬时时间
在这里插入图片描述

1.4、与函数单调性关系

函数导数大于0单调递增,小于0单调递减
在这里插入图片描述

1.5、与函数凹凸性关系

1)二阶导大于0,则是凸函数(向下凸),如x平方,二阶导为2>0,所以为凸函数
2)一阶导等于0,称之为驻点
3)二阶导等于0,称之为拐点

1.6、极值定理

函数极值处导数等于0,但等于0不一定是极值,比如f(x)=x³
在这里插入图片描述

二、导数计算公式

2.1、基本函数

2.1.1、幂函数

在这里插入图片描述

2.1.2、指数函数

在这里插入图片描述

2.1.3、以a为底的指数函数

在这里插入图片描述

2.1.4、对数函数

在这里插入图片描述

2.1.5、以任意为底的对数函数

在这里插入图片描述

2.1.6、三角函数

因为三角函数是周期性的,所以机器学习(一般使用单调函数)中很少用到
在这里插入图片描述

2.2、四则运算

2.2.1、加法

在这里插入图片描述

2.2.2、乘法

在这里插入图片描述

2.2.3、除法

在这里插入图片描述

2.3、复合函数

在这里插入图片描述

三、高阶导数

二阶及以上的称为高级导数,即对导数再次求得
在这里插入图片描述

四、一元函数泰勒展开

泰勒展开是通过多项式函数近似一个可导函数f(x),在x=x0处进行泰勒展开,如果函数f(x)是n阶可导;
机器学习中求极值,可能会用到泰勒展开做近似,比如梯度下降值保留泰勒展开一阶项,牛顿法保留泰勒展开二阶项;
在这里插入图片描述

五、多元函数微积分

5.1、偏导数

5.1.1、定义

偏导数可以看做导数的推广,对应多元函数,可以将其自变量看做常量,对其中的一个变量求导,就称为偏导数;
在这里插入图片描述

5.1.2、几何意义

在某个方向上,对原函数先切一下,再求导,称为偏导数
示意图如下
在这里插入图片描述
举例表达式如下
在这里插入图片描述

5.2、高阶偏导数

5.2.1、定义

依次对多个变量反复求导,比如下发函数,如果对x,y求高阶偏导数,就会先对x求偏导,再对y求偏导
在这里插入图片描述

5.2.2、举例

对该函数求二阶偏导
在这里插入图片描述
在这里插入图片描述

5.2.3、特点

高阶导数和求导顺序无关,即
在这里插入图片描述

5.3、梯度

1)梯度下降法和牛顿法会使用到偏导数概念
2)梯度可以看做是一元函数的导数,对于多元函数的推广
3)对于多元函数如果有N个自变量,分别为x1 x2 … xn,那它的梯度是个向量,由对x1 x2等的偏导数构成的向量,我们称之为梯度
4)公式中的T表示我们常会将向量进行转置,看做列向量
在这里插入图片描述

5.4、雅可比矩阵

5.4.1、定义

1)雅克比矩阵是由一阶偏导数构成的矩阵,目的在于简化求导公式
2)假设有这样一个函数可以把n维x向量映射为k维的向量y,yi=f(xi)
在这里插入图片描述
其中每个xi和每个yi都相关,它的雅可比矩阵就是每个yi分别对每个xi求偏导后,构成的矩阵,如下图,第一行就是y1对X1 X2到Xn求偏导,第二行就是y2对X1 X2到Xn求偏导, 第k行就是yk对X1 X2到Xn求偏导
在这里插入图片描述
如果xi是n维向量,y是k个值的结果,那么雅可比矩阵就是 k*n 的矩阵

5.4.2、举例

在这里插入图片描述

5.5、Hessian矩阵

5.5.1、定义

它是对于一个多元函数来说的,相当于一个一元函数的二阶导数
有一个n元函数,比如X1,X2…Xn,它的Hessian矩阵是一个n*n的矩阵,所有元素由二阶偏导数构成,第一个元素是求X1的二阶偏导,第二个元素是求X1X2的二阶偏导…
在这里插入图片描述

5.5.2、Hessian矩阵是对称矩阵

因为多元函数求高阶偏导与顺序无关(下图为举例说明)
在这里插入图片描述

5.5.3、与函数凹凸性关系

1)如果Hessian矩阵是正定,则函数是凸函数
2)如果Hessian矩阵是负定,则函数凸函数

5.5.4、矩阵正定定义方式(极值判别法)

5.5.4.1、一元函数

以X ²函数为例
1)f(x)的一阶导数等于0处有极值
2)f(x)的二阶导数大于0时是极小值
3)f(x)的二阶导数小于0时是极大值

5.5.4.2、多元函数

如果f(x)一阶导等于0,则为驻点,有极值,但无法判别为极大/极小值,此时可以根据hessian矩阵判别
1)如果hessian矩阵为正定,这该点处有极小值
2)如果hessian矩阵为负定,这该点处有极大值
3)如果hessian矩阵不定,则需要看更高阶的导数

5.5.4.3、如何判断矩阵是正定

在这里插入图片描述
在这里插入图片描述
但是上述方式实现相对不容易,所有我们也会使用如下几个原则判断
1)矩阵的特征值全部大于0
2)矩阵的所有顺序主子式都大于0
3)矩阵合同于单位矩阵

猜你喜欢

转载自blog.csdn.net/shaixinxin/article/details/111658258