机器学习常用「微积分」知识

在分享深度学习博客的时候，有很多人问我，需不需要从头复习下本科阶段的微积分和线性代数知识，个人觉得没必要，当遇到相关问题的时候再去查也不迟，如果非要复习一下的话，我个人推荐李烨老师的两篇免费Chat，本文转载于GitChat，详情请查看原文。

1、一元函数

先来看最最简单的一元函数的情况：

【导数】：函数y = f(x) 在点x0的某个邻域内有定义，则当自变量x在x0处取得增量 deltax，函数输出值也相应取得增量deltay。

如果deltay与deltax的比值在delta_x趋于0时的极限存在，则f(x)在x0处的导数存在，即f(x)在x0处可导。该极限即为f(x)在x0处的导数，记作f’(x0)。

如果函数的自变量和取值都是实数的话，那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。

【导函数】：若函数 f(x) 在其定义域包含的某区间 I 内每一个点都可导，则成f(x)在区间I内可导。

这时对于 I 内每一个确定的 x 值，都对应着 f(x) 的一个确定的导数值，如此一来就构成了一个新的函数 x -> f’(x) 这个函数称作原来函数f(x) 的导函数，记作f’(x)。

【可导】：有两种情况： i) 在某点可导：若某函数在某一点导数存在，则称其在这一点可导，否则称为不可导。

ii)在某区间可导：若某函数在其定义域包含的某个区间内，每一个点都可导，那么就说这个函数在该区间内可导。

【求导】：寻找已知的函数在i) 某点的导数或ii) 其导函数的过程称为求导。

【导数 vs 导函数】：导数是函数的局部性质，是一个数，指函数f(x)在点 x0处导函数的函数值。导函数则是指在一个值域空间里面，一个连续函数处处可导。不是所有的函数都有导数，一个函数也不一定在所有的点上都有导数。

在不至于混淆的情况下，通常也可以说导函数为导数。

【可微】：一个函数在其定义域中所有点都存在导数，则它是可微的。若X0是函数f(x)定义域上的一点，且f′(X0)有定义，则称f(x)在X0点可微。

从图像的角度分析，就是说f(x)的图像在(X0, f(X0))点有非垂直切线，且该点不是间断点、尖点。

若f(x)在X0点可微，则f(x)在该点必连续。逆命题则不成立，一个连续函数未必可微——可微必连续，连续未必可微。

【连续可微】：函数f(x)的导数f’(x)存在且是连续函数，则f(x)连续可微。

【微分】：设函数 y = f(x)在某区间I内有定义，且在其中一点x0处是可微的。

即：如果函数y = f(x)的增量deltay = f(x0 + deltax) - f(x0) 可表示为deltay = Adeltax + o(deltax)，其中A是不依赖于deltax的常数，而o(deltax)是比deltax高阶的无穷小。

其中，Adeltax称作函数f(x)在点x0向应用自变量增量deltax的微分，记作dy,即dy = Adx, dy是deltay的线性主部，dx = deltax.

【可微 vs 可导】：对于一元函数，可微与可导完全等价。

可微的函数，其微分等于导数乘以自变量的微分dx，换句话说，函数的微分与自变量的微分之商等于该函数的导数。因此，导数也叫做微商。

于是函数 y = f(x)的微分又可记作 dy = f’(x)dx。

总结一下上面若干概念：导数/导函数是名词（一个东西），可导/可微是形容词（一种属性），求导/微分是动词（做一件事）。

2、多元函数

相对于一元函数，多元函数的情况要更加复杂，多出了一个“偏”的概念。

【偏增量】：设函数z = f(x, y) 在点 (x0, y0)的某邻域内有定义，则f(x + deltax,y) – f(x,y)和 f(x, y + deltay) - f(x, y) 都是它的偏增量。

【全增量】：设函数z = f(x, y) 在点 (x0, y0) 的某邻域内有定义， (x + deltax，y + deltay）为这邻域内的任意一点，则称这两点的函数值之差f(x + deltax，y + deltay）- f(x，y)为函数在点(x0, y0)对应自变量deltax，deltay的全增量，记作delta_z。

【偏导数】：一个多元函数中，在除了某个变量之外其他变量都保持恒定不变的情况下，关于这个变量的导数，是偏导数。

求偏导数时，除了当前变量之外的变量，被认为与当前变量无关。例如求f(x,y)在(x0,y0)处关于x的偏导数，则此时假定y与x无关。

【全导数】：求全导数中，允许其他变量随着当前变量变化。也就是说求f(x,y) 在(x0,y0)处的全导数的时候，我们假定y随 x变化。

【偏微分】：指多元函数z=f(x,y)的分别针对x和y微分。f(x,y)关于x和y的偏微分分别为：fx’(x,y)dx 和 fy’(x,y)dy。

【全微分】：指多元函数z=f(x,y)的全增量delta_z的线性主部，记作dz。一个多元函数在某点的某邻域内的各个偏导数都存在，且偏导函数在该点都连续，则在该点该多元函数的全微分存在。

【可微】：一个多元函数在某点的全微分存在，则该函数在该店可微。

换言之，如果一个多元函数的所有偏导数在某点的邻域内存在且连续，那么该函数在该点可微。

若多元函数在某点可微，则此函数在该点必连续。逆命题也不成立——可微必连续，连续未必可微。

【偏微分和全微分的关系】： dz= fx’(x,y)dx + fy’(x,y)dy —— 全微分等于偏微分之和。