吴恩达机器学习课程笔记（二）单变量线性回归

*个人学习笔记

一、基础定义

1.1 数据集符号定义

m: 样本数量

(x, y): 训练样例

(x(i), y(i)): 第i个训练样例（i ≥ 1）

1.2 假设函数

使用某种学习算法对训练集进行训练，我们可以得到假设函数（Hypothesis）。

在房价问题中，确定了假设函数，我们就可以根据平方数面积预测房价了。

扫描二维码关注公众号，回复： 3223661 查看本文章

我们使用如下的形式表示假设函数：

h_{θ} (x) = θ_{0} + θ_{1}

使得假设函数的曲线尽量与数据拟合。

三、模型描述

上面这个模型叫做（单变量）线性回归模型【（Univariate）Linear Regression】

四、代价函数（Cost function）

平方误差函数（Squared error function）： J（θ0，θ1）对于回归问题来说是最常用的代价函数。

其中，hθ代表预测输出，y代表真实输出，平方项的目的是将差转换为正数，然后将其针对所有样本求和，除以m得到平均平方误差。除以2是为了方便后面的计算，没有实际的意义。

4.1 简化假设函数h帮助理解代价函数J

将假设函数简化为：hθ（x） = θ1*x（θ0 = 0），三个真实数据在 y = x 直线上，

根据不同的θ1取值可以绘制右侧的代价函数曲线（左侧为假设函数曲线），可以看到当θ1 = 1时，J取到最小值，因此θ1 = 1时假设函数最能够拟合真实的数据曲线：

4.1 进一步理解代价函数J

上一小节讲了只有θ1一个参数的简化情况，那么正常情况下拥有两个参数的J是什么样子的呢？很容易想到。

代价函数是一个3d曲面，横坐标轴分别为两个参数，曲面的高度代表代价函数J的计算值。

同样地，曲面也可以由等高图像来表示：

等高图像中相同颜色代表着相同的J值，如右上图中的三个玫瑰红色的叉叉。

那么我们如何通过软件来找到最小的J值呢？下面就来介绍一种算法。

四、梯度下降（Gradient Descent）

4.1 梯度下降算法概念

梯度下降算法是一种优化算法, 它可以帮助我们找到一个函数的局部极小值点。它不仅仅可以用在线性回归模型中, 在机器学习许多其他的模型中也可以使用它。对于我们现在研究的单变量线性回归来说, 我们想要使用梯度下降来找到最优的 $θ_{0}, θ_{1。它的思想是, 首先随机选择两个}$ $θ_{0}, θ_{1}$ (例如, $θ_{0} = 0, θ_{1} = 0$ ), 不断地改变它们的值使得 $J (θ)$ 变小, 最终找到 $J (θ)$ 的最小值点。

可以把梯度下降的过程想象成下山坡, 如果想要尽可能快的下坡, 应该每次都往坡度最大的方向下山。

梯度下降算法得到的结果会受到初始状态的影响, 即当从不同的点开始时, 可能到达不同的局部极小值, 如下图:

然而线性回归模型没有这个问题，因为线性回归模型总是一个弓形图（凸函数），不存在局部最优值，只有全局最优值：

4.2 梯度下降算法过程

如下图所示, 其中 $:=$ 表示赋值， $α$ 叫做学习率用来控制下降的幅度（可以理解为下山的步子，α大的话就是跨大步子下山），叫做梯度。这里一定要注意的是，算法每次是同时(simultaneously)改变 $θ_{0}$ 和 $θ_{1}$ 的值，如图下图所示。