吴恩达《cs229-机器学习》：1、梯度下降法与一元线性回归

1. 泰勒级数的一阶展开

泰勒级数（Taylor series）用级数来表示一个函数，这些相加的项由函数在某一点的导数求得。泰勒级数是以于1715年发表了泰勒公式的英国数学家布鲁克·泰勒（Sir Brook Taylor）的名字来命名的，在近似计算中有重要作用。
【定义】 如果函数 $f (x)$ 在点 $x=x_0$ 具有任意阶导数，则可以得到 $f (x)$ 在 $x_0$ 点的泰勒级数为
$\begin{aligned} f(x)&=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n\\ &=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2}(x-x_0)^2+\cdots+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+\cdots \end{aligned}$ 显然，如果 $x$ 非常接近 $x_0$ ，即 $x-x_0$ 很小时，我们可以用泰勒级数的一阶展开来近似表示 $f (x)$ ，即
$f(x)\approx f(x_0)+f'(x_0)(x-x_0).$

2. 梯度下降法

（1）问题描述

对于某函数： $J(\theta_0,\theta_1)$
希望： $\min \limits_{\theta_0,\theta_1}J(\theta_0,\theta_1)$
步骤：

从某个 $\theta_0,\theta_1$ 的初值开始（例如 $\theta_0=0$ ， $\theta_1=0$ ）；
持续改变 $\theta_0,\theta_1$ 来减小 $J(\theta_0,\theta_1)$ ，直到得到我们希望的最小值。

（2）梯度下降算法

重复直至收敛 $\{$
$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)\quad ({\rm for}\ j=0\ {\rm and}\ j=1)$
$\}$

正确的方法：同时更新
temp0 $:=\theta_0-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
temp1 $:=\theta_1-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
$\theta_0:=$ temp0
$\theta_1:=$ temp1

不正确的方法：分别更新
temp0 $:=\theta_0-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
$\theta_0:=$ temp0
temp1 $:=\theta_1-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
$\theta_1:=$ temp1

$\alpha$ ：学习速率，更新参数的幅度大小

3. 梯度下降线性回归

对于一元线性回归问题，有

$\begin{aligned} h_{\theta}(x)&=\theta_0+\theta_1x\\ J(\theta_0,\theta_1)&=\frac{1}{2m}\sum_{i=1}^m[h_{\theta}(x^{(i)})-y^{(i)}]^2 \end{aligned}$

对代价函数求偏导，可以得到
$\begin{aligned} \frac{\partial}{\partial \theta_0}J(\theta_0,\theta_1)&=\frac{1}{m}\sum_{i=1}^m[h_{\theta}(x^{(i)})-y^{(i)}]\\ \frac{\partial}{\partial \theta_1}J(\theta_0,\theta_1)&=\frac{1}{m}\sum_{i=1}^m[h_{\theta}(x^{(i)})-y^{(i)}]x^{(i)}\end{aligned}$