第二章-单变量线性回归算法深度之眼_吴恩达机器学习作业训练营

一，引例：房价问题

假设现在有一组有关房屋面积X与价格Y的数据，现在给定一个待出售的房屋，请问是否能给予估价？

表2-1 房价问题
房屋面积(m^2)	出售价格（1000￥）
2014	40
1416	232
1534	315
......	......

二，提出假设(Hypothesis)

该类由一些数据的特征(feature)推测出一个连续的目标值的问题就是监督学习中的回归问题（Regression Problem）。运用数学知识，我们可假设房屋面积与其出售价格之间存在某种函数关系 $Y=h_{\theta}(X)$ ，而事先拟定的函数关系 $h_{\theta}(X)$ 在机器学习中就称为假设函数（hypothesis function）。回顾中学学过的一元线性函数，我们可以假设房屋面积与其出售价格之间呈线性： $h_{\Theta }(x) = Y = \Theta _{0} + \Theta _{1} * X$ （公式2.1）

上述公式即可称为单变量线性回归（Linear regression with one variable）模型。当然，数据之间可能存在更加复杂的函数关系，本章只讨论线性函数假设。

由此假设可知，想要准确预测目标值就要找到合适的模型参数 $( \theta_{0},\theta_{1} )$ ，使得该假设与实际规律尽量相符合，该过程称为拟合 (fiting)。在具体求解合适的参数前，需要建立评价体系，即给定任意的参数 $( \Theta _{0} ,\Theta _{1} )$ ，如何判断其组成的假设函数与实际规律直接拟合的情况好坏？

三，损失函数(Cost Function)

损失函数即为评价给定的假设函数与实际规律之间拟合差异的函数。一般而言当两者拟合效果越好时，损失函数的值越小，反之越大。损失函数也有很多类型，在本例中，我们采用平方损失函数(quadratic loss function)：

$J(\Theta_{0}, \Theta_{1}) = \frac{1}{2m}\sum(h_{\Theta }(x^{(i)}) - y^{(i)} )^{2}$ (公式2.2)

其中 $(x^{(i)},y^{(i)})$ 为第 i 组样例(即表中第 i 行)中的房屋面积(特征)与出售价格(输出)。

当任意实例的估计值比实际值偏大或偏小时，两者差值的平方均会偏大，所有实例估计值与实际值之间的差值平方的平均值,再除以2即为损失函数的值（除2是为了使梯度的计算更简便）。当参数与实际规律越相接，损失函数的值越小，反之越大，可见该损失函数确实可以评判参数的好坏。

当确立损失函数以后，求解最优模型参数 $( \Theta _{0} ,\Theta _{1} )$ 的问题就可以转变为寻找最优参数，使得损失函数最小的问题。

四，梯度下降法(gradient descent)

求解多元函数最值问题，可采用梯度下降法，具体步骤如下：

1. 任选初始参数 $( \Theta _{0} ,\Theta _{1} )$ ，学习率 α。

2. 通过求偏导来对参数进行更新，公式如下:

$\Theta _{0} := \Theta _{0} - \alpha \frac{\delta }{\delta \Theta _{0} } J(\Theta_{0}, \Theta_{1}) =\Theta _{0} - \frac{1}{m}\sum (h_{\Theta }(x^{(i)}) -y^{(i)})$ （公式2.3.1）

$\Theta _{1} := \Theta _{1} - \alpha \frac{\delta }{\delta \Theta _{1} } J(\Theta_{0}, \Theta_{1}) =\Theta _{1} - \frac{1}{m}\sum (h_{\Theta }(x^{(i)}) -y^{(i)})*x^{(i)}$ （公式2.3.2）

3. 直到损失函数的值足够小，满足要求为止。

其中，学习率(learning rate)可理解为每次参数值具体的变化量大小，也叫做步长。

算法理论依据为：函数对某一变量 $\theta_{i}$ 的偏导数表明了随该变量变化而变化的情况。当偏导数为正时，函数随变量 $\theta_{i}$ 增大而增大；当偏导数为负时，函数随变量θ增大而减小。在梯度下降法的每次迭代中，参数 $\theta_{i}$ 都减去了学习率与其偏导数的乘积，当偏导数为正时，表明损失函数会随当前参数 $\theta_{i}$ 的增大而增大，于是减去 $\alpha \frac{\delta }{\delta \Theta _{i} } J$ 令参数 $\theta_{i}$ 减小，即可使得损失函数减小，减小的量即是学习率α的倍数。同理，当偏导数为负时，表明损失函数会随当前参数 $\theta_{i}$ 的增大而减小，于是减去 $\alpha \frac{\delta }{\delta \Theta _{i} } J$ 令参数 $\theta_{i}$ 增大，即可使得损失函数减小，减小的量即是学习率α的倍数。