【数学】通俗理解泰勒公式（牛顿迭代法有用到）

文章目录

【数学】通俗理解泰勒公式（牛顿迭代法有用到）

1. 介绍

最近在看一些机器学习优化相关的方法（梯度下降、牛顿迭代等），里面又涉及到泰勒公式展开等，大学学的奈何都忘的差不多了，于是就看了一些博客，整理一下。

泰勒公式，也称泰勒展开式。是用一个函数在某点的信息，描述其附近取值的公式。如果函数足够平滑，在已知函数在某一点的各阶导数值的情况下，泰勒公式可以利用这些导数值来做系数，构建一个多项式近似函数，求得在这一点的邻域中的值。

所以泰勒公式是做什么用的？
- 简单来讲就是用一个多项式函数去逼近一个给定的函数（即尽量使多项式函数图像拟合给定的函数图像），注意，逼近的时候一定是从函数图像上的某个点展开。
- 如果一个非常复杂函数，想求其某个值，直接求无法实现，这时候可以使用泰勒公式去近似的求该值，这是泰勒公式的应用之一。
- 泰勒公式在机器学习中主要应用于梯度迭代（牛顿迭代法）。

2. 通俗理解

下式是最简单的一类初等函数，也就是多项式。
在这里插入图片描述

多项式本身的运算仅是有限项加减法和乘法，所以在数值计算方面，多项式是人们乐于使用的工具。因此我们经常用多项式来近似表达函数。这也是为什么泰勒公式选择多项式函数去近似表达给定的函数。

2.1 近似计算

初等数学已经了解到一些函数如：
在这里插入图片描述
但是初等数学不曾回答怎样来计算它们，以 $\small \cos x$ 的近似计算为例，这里进行计算：

1）一次（线性）逼近

利用微分近似计算公式 $\small \approx f(\small x_{0}) + {f}'(\small x_{0})(x - \small x_{0})$ (该式由导数/微分的极限表达公式转换得到)，对 $\small x_{0} = 0$ 附近的 $f (x)$ 的线性逼近为： $\small \approx f(0) + {f}'(0) x$ , 所以 $\small \cos x \small \approx 1$ ，所以 $f (x)$ 在 $\small x_{0} = 0$ 附近的线性逼近函数 $P_{1}(x) = 1$ ，如下图：
在这里插入图片描述

线性逼近-优点：形式简单，计算方便；
线性逼近-缺点：离原点O越远，近似度越差。

2）二次逼近

使用二次多项式 $p_2(x) = a_0 + a_1x + a_2 x^2$ 来逼近 $\small \cos x$ ，我们期望：

在这里插入图片描述
所以 $\small \cos x \small \approx \small P_{2}\left ( x \right ) = 1 - \small \frac{x^{2}}{2}$ ，如下图：

在这里插入图片描述

二次逼近要比线性逼近好得多，但局限于 $\small -\frac{\pi }{2}，\small \frac{\pi }{2} ]$ 内，在这个范围之外，图像明显差异很大。
为什么我们期望两个函数在某一点的函数值、一阶导数值、二阶导数值相等？
- 因为这些值表达了函数(图像)最基本和最主要的性质，这些性质逼近即可以使得两个函数逼近（由上面函数图像可以直观地看出来）。这也是泰勒公式的基本思想。

3）八次逼近

使用八次多项式 $p_8(x) = a_0 + a_1x + a_2 x^2 + ... + a_8 x^8$ 来逼近 $\small \cos x$ ，我们期望：
在这里插入图片描述
因此，可以得到：

图像如下图：
$\small P_{8}\left ( x \right )$ (绿色图像) 比 $\small P_{2}\left ( x \right )$ (蓝色图像) 更大范围内更接近余弦函数 (红色图像)

综上，由上述3次不同程度的函数逼近可以看出：对于精确度要求较高且需要估计误差的时候，必须用高次多项式来近似表达函数，同时给出误差公式。以上就是利用多项式函数去逼近给定函数的一个过程。

3. 泰勒公式的推导

由此引出一个问题：给定一个函数 $\small f\left ( x \right )$ ，要找一个在指定点 $\small x_{0}$ 附近与 $\small f\left ( x \right )$ 很近似的多项式函数 $\small P\left ( x \right )$ ，记为：
在这里插入图片描述
使得 $\small f\left ( x \right ) \small \approx \small P_{n}\left ( x \right )$ 并且使得两者误差 $\small R_{n}\left ( x \right ) = f\left ( x \right ) - P_{n}\left ( x \right )$ 可估计。所以要找的多项式应该满足什么条件，误差是什么？

从几何上看， $\small y = f\left ( x \right )$ ， $\small y = P_{n}\left ( x \right )$ 代表两条曲线，如下图：

在这里插入图片描述
使它们在 $\small x_{0}$ 的附近很靠近，很明显：

首先要求两曲线在 $\small \left ( x_{0},f\left ( x_{0} \right ) \right )$ 点相交，即 $\small P_{n}\left ( x_{0} \right ) = f\left ( x_{0} \right )$
如果要靠得更近，还要求两曲线在 $\small \left ( x_{0},f\left ( x_{0} \right ) \right )$ 点相切，(由图像可以直观看出，相交 [ 棕色和红色图像 ] 和相切 [ 绿色和红色图像 ]，两曲线在 $\small x_{0}$ 附近的靠近情况明显差异很大，相切更接近)，即 $\small {P_{n}}'\left ( x_{0} \right ) = {f}'\left ( x_{0} \right )$
如果还要靠得更近，还要求曲线在 $\small \left ( x_{0},f\left ( x_{0} \right ) \right )$ 点弯曲方向相同，(如上图，弯曲方向相反 [ 绿色和红色图像 ]；弯曲方向相同[ 蓝色和红色图像 ]，明显在离 $\small x_{0}$ 很远的地方，弯曲方向相同两函数的差异更小一点)，即 $\small {P_{n}}''\left ( x_{0} \right ) = {f}''\left ( x_{0} \right )$ ，进而可推想：若在 $\small \left ( x_{0},f\left ( x_{0} \right ) \right )$ 附近有 $\small {P_{n}}'\left ( x_{0} \right ) = {f}'\left ( x_{0} \right )$ ， $\small {P_{n}}''\left ( x_{0} \right ) = {f}''\left ( x_{0} \right ) \small \cdots \cdots \cdots \small P_{n}^{\left ( n \right )}\left ( x_{0} \right ) = f^{n}\left ( x_{0} \right )$ ，近似程度越来越好。

综上所述，所要找的多项式应满足下列条件：
在这里插入图片描述

解释一下上面的转换时如何做的，以上面第三行的二阶导数为例：
- 第一个箭头的转换：将 $\small P_{n}\left ( x \right )$ 求二阶导函数后将 $\small x_{0}$ 带入，求得 $\small {P_{n}}''\left ( x_{0} \right ) = 2!a_{2}$
- 第二个箭头的转换：所以 $\small {f}''\left ( x_{0} \right ) = 2!a_{2}$ ，所以 $\small a_{2} = \frac{1}{2!}{f}''\left ( x_{0} \right )$

多项式函数 $p_n(x) = a_0 + a_1(x - x0) + a_2 (x - x0)^2 + ... + a_n (x - x0)^n$ 中的系数 $\small a$ 可以全部由 $\small f\left ( x \right )$ 表示，则得到：
在这里插入图片描述
其中误差为 $\small R_{n} \left ( x \right ) = f\left (x \right ) - P_{n}\left ( x \right )$ 。因为是用多项式函数去无限逼近给定的函数，所以两者之间肯定存在一丢丢的误差。

4. 泰勒公式的定义

所以我们就得到了泰勒公式的定义：

如果函数 $\small f\left ( x \right )$ 在含 $\small x_{0}$ 的某个开区间 $\small \left ( a,b \right )$ 内具有直到 $\small \left ( n+1 \right )$ 阶导数，则对 $\small \forall x \in \left ( a,b \right )$ ，有：
在这里插入图片描述
其中余项 (即误差) $\small R_{n}\left ( x \right ) = \frac{f^{\left ( n+1 \right )}(\xi )}{\left ( n+1 \right )!}(x-x_{0})^{n+1}$ ， $\xi$ 在 $\small x_{0}$ 与 $x$ 之间。泰勒公式的余项表达方式有好几种，前面这表示方法称为 n 阶泰勒展开式的拉格朗日余项。

拉格朗日余项即是n阶泰勒公式又多展开了一阶，n 变为 n+1。
注意，这里的余项即为误差，因为使用多项式函数在某点展开，逼近给定函数，最后肯定会有一丢丢的误差，我们称之为余项。

5. 扩展 — 麦克劳林公式

麦克劳林公式是泰勒公式的一种特殊情况：即当 $\small x_{0} = 0$ 时的泰勒公式。所以将 $\small x_{0} = 0$ 代入公式，即得：
在这里插入图片描述
几个常见的初等函数的带有佩亚诺余项的麦克劳林公式：

佩亚诺余项为 $\small \left ( x-x_{0} \right )^{n}$ 的高阶无穷小：

参考

【1】https://blog.csdn.net/xiaojinger_123/article/details/127442655