机器学习 | 吴恩达机器学习第二周学习笔记

课程视频链接：https://www.coursera.org/learn/machine-learning/home/welcome

第二周PPT汇总下载链接:https://pan.baidu.com/s/1CfhGOP6JG8M4JBSPB9NM-Q 密码:7c1r

上一篇博客主要介绍了第一周的课程的内容，总体来说比较简单，包括机器学习简介、并以引入单变量线性回归来讲解代价函数和模型的表示以及如何利用梯度下降法来求解单变量线性回归(重点);本篇博客将系统的介绍第二周的内容，其实是对第一周内容的扩展和延伸，把使用场景更一般化，从单变量线性回归演变到多变量线性回归，并通过实例来介绍使用梯度下降法求解多变量线性回归的实用技巧，模型特征选择与特征缩放以及最后引入一种线性回归的解析解法并与梯度下降法进行比较。从本周开始，将会有编程作业，后续还会进一步完善补充。接下来开始详细介绍本周内容。

1.多元线性回归的引入

在上周的课程中，我们以房价数据集(仅包含面积一个输入变量)为例，介绍了单元线性回归的相关知识。我们首先回顾一个上周的内容。

(1)单元线性回归

数据集

该数据集输入变量仅有面积一个特征，输出变量是对应的房价。

假设函数

$h_{\Theta }(x) = \Theta _{} + \Theta _{1}\cdot x$

由于只有一个特征，所以假设函数只有两个待定参数。

(2)多元线性回归

实际情况并没有这么简单，影响房价的因素还有很多，除了面积之外，比如还有卧室的数量，房子的层数以及房子的寿命等等一些因素。就此我们引入一个新的房价数据集。

数据集

该数据集的输入变量包含四个特征，输出变量是房价，二者构成了训练样本。我们引入一些新的模型表示符号：

模型表示符号	含义
$m$	训练集中的训练样本数量
$n$	输入变量的特征数量
$x$	输入变量
$y$	输出变量
$\Theta$	模型参数
$(x,y)$	训练集中的训练样本
$(x^{(i)},y^{(i)})$	训练集中的第 $i$ 个训练样本
$x^{(i)}$	第 $i$ 个训练样本的输入变量
$x_{j}^{(i)}$	第 $i$ 个训练样本的输入变量的第 $j$ 个特征值

举例来说，就上图的数据集而言， $m=4,n=4$ , $x_{3}^{(2)}=2$ 即第2个训练样本的第三个特征值。

假设函数

现在我们给出该实例的假设函数，由于它有四个输入特征，所以其假设函数应该有5个参数。

$h_{\Theta }(x)=\Theta _{0}+\Theta _{1}\cdot x1+\Theta _{2}\cdot x2+\Theta _{3}\cdot x3+\Theta _{4}\cdot x4$

为了方便表示，我们定义 $x_{0}=1$ ,推广到一般化的多元线性回归，如下所示：

$h_{\Theta }(x)=\Theta _{0}\cdot x_{0}+\Theta _{1}\cdot x1+\Theta _{2}\cdot x2+...+\Theta _{n}\cdot x_{n}$ $=\Theta ^{T}\cdot x$

其中：

输入变量 $x$ 和参数 $\Theta$ 均为 $n+1$ 的向量。

2.使用梯度下降法求解多元线性回归

多元线性回归的一般形式

输入变量 $x^{(i)}$ 和参数 $\Theta$ 均为 $n+1$ 的向量,均有 $n+1$ 个分量。

其中代价函数也可以写成如下形式：

对比单元线性回归和多元线性回归使用梯度下降法的迭代过程：

左边为单元线性回归的参数更新过程，右边为多元线性回归的参数更新过程。这里仍然要注意在一次迭代所有的参数都务必是同时更新(具体可见第一周笔记)。可以发现二者的通式本质上是一致的，单元线性回归只是多元线性回归的特殊情况。

3.梯度下降法实用技巧

(1)特征缩放

如果你有一个机器学习的问题，该问题有多个特征，若能保证这些特征都处在一个相近的范围(即保证不同特征的取值在相近的范围内，这种情况下梯度下降法的收敛速度会很快。
几何解释：

假设现在的输入变量有两个特征， $x_{1}$ 为房子的面积，其取值范围为0-2000 $(feet^{2})$ ; $x_{2}$ 为房子的卧室数量，其取值范围为0-5(间)。可见两个特征的取值范围相差甚远，现在我们做出代价函数 $J(\Theta )$ 随参数 $\Theta _{1}，\Theta _{2}$ ， $\Theta _{2}$ （此处忽略参数 $\Theta _{0}$ ）变化的轮廓线。

由于两个特征取值范围相差很大，此时的轮廓线大致如上图所示。会非常瘦长，且使用梯度下降法收敛到代价函数全局最小值时，会非常缓慢且出现波动的状况。

解决方案：

可以采用平均值归一化对特征进行缩放，公式如下：

$x_{i}=\frac{x_{i}-\mu _{i}}{S_{i}}$

其中 $x_{i}$ 为输入变量第 $i$ 个特征， $\mu _{i}$ 为输入变量第 $i$ 个特征所有取值的平均值， $S_{i}$ 为输入变量第 $i$ 个特征的取值范围(最大取值减去最小取值），注意 $i\neq 0$ ，第0个特征是我们为了方便表示自己添加的，默认取值为1，不用归一化。那么用平均值归一化对上例中的特征进行归一化可得：

可以发现所有特征的取值范围在归一化后，都会在一个相同或相近的范围内。此时，我们再画出代价函数 $J(\Theta )$ 随参数 $\Theta _{1}，\Theta _{2}$ ， $\Theta _{2}$ （此处忽略参数 $\Theta _{0}$ ）变化的轮廓线，可能就如下图所示：

此时的轮廓线会比较正和圆，这种情况下，梯度下降法收敛速度会很快，循环迭代次数更少。

总结：当使用梯度下降法解决多元线性回归时，为了使算法收敛更快，务必要对特征进行归一化，使其取值在一个相同或者相近的范围内,尤其是各个特征取值范围差异巨大的情况下，归一化就显得尤为重要了。

(2)学习率

两种判断梯度下降法是否收敛的方法

1.做出代价函数 $J(\Theta )$ 随参数更新迭代次数的变化曲线

上图的横坐标为迭代次数，当迭代到某个次数时，如100次，此时会得到一个新的参数 $\Theta$ ，将这个新参数代入代价函数 $J(\Theta )$ 所得的数值即为该点的纵坐标。每到一个新的迭代次数，都会得到一个新的参数 $\Theta$ ，对应也会得到一个 $J(\Theta )$ ，从而绘制出上图曲线。

如果梯度下降法正常工作的话，每次迭代后，代价函数 $J(\Theta )$ 都会下降。

这条曲线作用就是判断梯度下降法是否收敛，如上图所示，当迭代次数超过300次，在300-400之间时，我们会发现曲线比较平坦，也就是说此时 $J(\Theta )$ 并未下降多少，那么说明此时梯度下降法基本收敛。

2.自动收敛测试

若在某次迭代后，代价函数 $J(\Theta )$ 的变化范围小于某个阈值 $\varepsilon$ ， $\varepsilon$ 是一个很小的值，一般取 $10^{-3}$ ，则认为梯度下降法基本收敛。

上述两种方法的比较

实际上多用方法1，而不是方法2.

1.首先方法2很难确定一个合适的阈值 $\varepsilon$ 。

2.方法1不仅能够判断梯度下降法是否收敛，而且还能在梯度下降法不正常工作时，提前警告你，比如下图的情况：

如果出现上图中的两种曲线，说明梯度下降法没有正常工作，此时应该选择一个小的学习率 $\alpha$ 。

学习率 $\alpha$ 的选择

我们在上一周的课程中曾经讨论过这个问题。

1.对于足够小的学习率 $\alpha$ ， $J(\Theta )$ 会在每次迭代后下降。

2.但是如果学习率 $\alpha$ 过小，梯度下降法收敛会非常缓慢。

3.当学习率 $\alpha$ 过大时， $J(\Theta )$ 或许不会在每次迭代后下降，甚至不会收敛。

4.实际过程中，我们可以根据 $J(\Theta )$ 随迭代次数变化的曲线，来选择一个合适的 $\alpha$ 。

比如C图中， $J(\Theta )$ 随迭代次数上升，说明 $\alpha$ 设置的比较大，此时应减小 $\alpha$ ；B图中， $J(\Theta )$ 虽然随迭代次数下降，但下降的比较缓慢，说明 $\alpha$ 设置的比较小，此时应增大 $\alpha$ ；A图中的 $\alpha$ 应该介于B和C之间，比较合适。

5.学习率的选择可以依次进行。

4.特征和多项式回归

(1)创造新特征

有时在拿到训练样本时，我们不一定要使用所有原始特征，可以对原始特征进行一定的处理，创造出一个新的特征，比如：

输入变量有frontage和depth两个特征，其中frontage是房子的沿路宽度，depth是房子的纵深；由于房子的面积可以表示为二者相乘，那么此时我们可以创造出一个新特征面积来代替原始的特征，或许算法效果会更好。

(2)多项式回归

仍然是预测房价问题，此时输入变量只有面积这一个特征，我们绘制出房价和面积的散点图如上所示。之前我们一直用线性函数来拟合，其实我们也可以尝试用曲线来拟合。比如我们可以采用二次或者三次多项式来拟合。

以三次多项式拟合为例，其假设函数 $h_{\Theta }(x)$ 如上所示，此时会出现面积的平方和立方；这时我们可以构造两个新的特征 $x_{2},x_{3}$ 使其分别等于面积的平方和立方，那么就构成了一个新的多元线性回归，依然可以用梯度下降法求解参数。但此时一定要注意特征的归一化，因为三个特征的取值范围差异很大(两个新特征分别是原始特征的平方和立方)。