机器学习--单变量线性回归

嗯…，之所以写这个，是因为最近上课在学这个。。。想了又想，还是做个记录吧。
最近有点不在状态，仿佛是开学导致的(小声bb)。难受！
话不多说，开始正题！

1.模型表示
概念：单元线性回归，试图学得一个线性模型以尽可能准确地预测实值输出标记。单变量这个词仅仅是称呼单一变量的高大上的方式。

在回归中，均方误差(平方损失)是回归任务中最常用的性能度量。
通过让均方误差最小化来得到最优解。如果是拟合更加复杂的比如非线性函数，就不是用线性回归。

下面是一个根据房屋面积预测房屋价格的例子。
假使我们回归问题的训练集（Training Set）如下表所示：
在这里插入图片描述

我们将要用来描述这个回归问题的标记如下:
m 代表训练集中实例的数量
x 代表特征/输入变量
y 代表目标变量/输出变量
(x,y) 代表训练集中的实例
(x (i) ,y (i) ) 代表第 i 个观察实例
h 代表学习算法的解决方案或函数也称为假设（hypothesis）

训练集是通过一种监督学习算法之后得到一个假设函数。
在这里插入图片描述
因而，要解决房价预测问题，我们实际上是要将训练集“喂”给我们的学习算法，进而学习得到一个假设 h，然后将我们要预测的房屋的尺寸作为输入变量输入给 h，预测出该房屋的交易价格作为输出变量输出为结果。

一种可能的表达方式为：
在这里插入图片描述
因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

2.代价函数
概念：用于进行参数选择（即拟合），代价函数是用于寻找最优解（假设函数）的目标函数，代价函数也正是用来做这件事的。也叫损失函数，用来进行参数估计。

当用一个确定的方程来拟合一些数据集时，为了保证方程最为合适拟合程度最好，即每一个点的预测值和真实值的差距都要小，故可用求方差的方法，将每一个点的预测值与真实值的差求平方和后再除以数据样本的个数。值越小说明方程越能反映真实情况，把这个方程中的参数看做未知数，则变成了参数的方程，求方程最小值参数即可确定。

举例： 如下图所示
在这里插入图片描述

我们现在要做的便是为我们的模型选择合适的参数（parameters）θ 0 和 θ 1，在房价问题这个例子中便是直线的斜率和在 y 轴上的截距。

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距（下图中蓝线所指）就是建模误差（modeling error）。
在这里插入图片描述

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数最小(这里的1/2是为了便于后续计算)。
在这里插入图片描述

我们绘制一个等高线图，三个坐标分别为 θ 0 和 θ 1 和 J(θ 0, θ 1 )：
在这里插入图片描述

则可以看出在三维空间中存在一个使得 J(θ 0, θ 1 )最小的点。

3.梯度下降
梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数J(θ 0 ,θ 1 ) 的最小值。

梯度下降背后的思想是：开始时我们随机选择一个参数的组合（θ 0 ,θ 1 ,…,θ n ），计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到一个局部最小值（local minimum）。
因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。
在这里插入图片描述