多变量线性回归

（LinearRegression with Multiple Variables）

1. 多维特征

（Multiple Features）

目前为止，我们探讨了单变量/特征的回归模型，现在我们对房价模型增加更多的特征，例如房屋楼层等，构成一个含有多个变量的模型，对于每一个训练实例，其特征为 $(x_1,x_2,...,x_n)$ ，如下图为 $n=4$ 时：
在这里插入图片描述定义以下符号：

$n$ ：特征数量
$x^{(i)}$ ：第 $i$ 个训练实例，是一个向量(vector)，例如上图的 $x^{(2)}=[1416,\ 3,\ 2,\ 40]$
$x_j^{(i)}$ ：第 $i$ 个训练实例的第 $j$ 个特征，例如上图的 $x_2^{(2)}=3, \ x_4^{(2)}=40$

假设函数 $h$ 表示为： $h_θ(x)=θ_0+θ_1x_1+θ_2x_2+...+θ_nx_n$ 进一步简化公式，引入 $x_0=1$ ，则公式可以化为：
$h_θ(x)=θ_0x_0+θ_1x_1+θ_2x_2+...+θ_nx_n= \begin{bmatrix} \theta_0&\theta_1&\theta_2&··&\theta_n \end{bmatrix} \begin{bmatrix} x_0\\x_1\\x_2\\:\\x_n\end{bmatrix}=\theta^TX$ 模型中的参数组合是一个 $n+1$ 维的向量，任何一个训练实例的特征也是 $n+1$ 维的向量。

注意：
这里的 $X$ 是针对单个训练实例而言，并不是整个训练集，对整个训练集进行向量化得到特征矩阵，见下一篇线性回归向量化及正规方程

2. 多变量梯度下降

（Gradient Descent for Multiple Variables）

与单变量线性回归类似，在多变量线性回归中我们也构建一个代价函数，等于所有建模误差的平方和，即：
$J(θ_0,θ_1,...,θ_n)=\frac{1}{2m} \displaystyle\sum_{i=1}^{m} ( h_θ( x^{(i)} ) - y^{(i)}) ^2$ 其中 $h_θ(x)=θ_0x_0+θ_1x_1+θ_2x_2+...+θ_nx_n$ 和单变量线性回归问题一样，我们的目标就是找出使得代价函数取得最小值的一个参数组合，其批量梯度下降算法为：
在这里插入图片描述求导后得到：
可以验证一下：
与单变量线性回归一样，多变量线性回归中批量梯度下降算法的思想就是在开始时随机选择一个参数组合，根据计算所有预测结果及其代价函数，然后再给所有参数更新赋值，如此循环直到收敛为止。

除了用梯度下降法不断迭代来求解代价函数最小值，还有一种称为 正规方程（normal equations）的方法可以直接求解，见下一篇（4）线性回归模型向量化及正规方程

3. 梯度下降法实践

（Gradient Descent in Practice）

3.1 特征缩放

（Feature Scaling）

在面对多维特征问题的时候，要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

以房价问题为例，假设我们使用两个特征，房屋的面积和房间的数量，面积的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数 $θ_1$ 和 $θ_2$ 分别为横纵坐标，绘制代价函数的等高线图，能看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。
在这里插入图片描述
注1：上图呈竖直椭圆状的原因为：特征 $x_1^{(i)}$ 相较于 $x_2^{(i)}$ 大很多，则对应的 $θ_1$ 有较小波动时，就会导致代价函数产生较大的波动，即等高图中横轴方向的等高线比纵轴密集（看不懂等高图的可以参考这个链接：3D讲解等高线地形图）

注2：梯度下降时来回的波动称为震荡现象

解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间。如图：
在这里插入图片描述
常用以下两种方法进行特征缩放：

均值归一化 Mean normalization
也称为 Z-score标准化，给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。转化函数为： $x=\frac{x-μ}{σ}$ 其中 $μ$ 为所有样本数据的平均值， $σ$ 为所有样本数据的标准差。量化后的特征将大部分都分布在[-1,1]之间。
Min-Max标准化（Min-Max Normalization）
也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 , 1]之间。转换函数如下： $x=\frac{x-x_{min}}{x_{max}-x_{min}}$ 其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

3.2 学习率

（Learning Rate）

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，但可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。如下图所示， $J(θ)$ 应该随着迭代次数增加而逐渐减小至趋于0。
在这里插入图片描述也有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值（例如0.001）进行比较，但通常看上面这样的图表更好。