吴恩达机器学习笔记二线性回归

单变量线性回归

简单线性回归

假设样本中有 $m$ 组数据 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),…,(x^{(m)},y^{(m)})$
预测函数

h_{θ} (x) = θ_{0} + θ_{1} x

$h_{\theta}(x)=\theta_{0}+\theta_{1}x$ 代价函数

J (θ_{0}, θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} x^{(i)} - y^{(i)})^{2}

$J(\theta_{0},\theta_{1}) = \frac{1}{2m}\sum_{i=1}^{m} (h_\theta x^{(i)}-y^{(i)})^2$ 目标求解

(θ_{0}, θ_{1}) = a r g min_{θ_{0}, θ_{1}} J (θ_{0}, θ_{1})

$(\theta_{0},\theta_{1})=arg\min_{\theta_{0},\theta_{1}} J(\theta_{0},\theta_{1})$ 比较常用的方法就是梯度下降法。梯度与方向导数密切相关，是从泰勒级数的展开来证明的，比较简单，这里就不推导了。具体算法过程：

t e m p 0 = θ_{0} - α \frac{\partial}{\partial θ_{0}} J (θ_{0}, θ_{1})

$temp0 = \theta_{0}-\alpha \frac{ \partial }{ \partial{\theta_{0}} } J(\theta_{0},\theta_{1})$

t e m p 1 = θ_{1} - α \frac{\partial}{\partial θ_{1}} J (θ_{0}, θ_{1})

$temp1 = \theta_{1}-\alpha \frac{ \partial }{ \partial{\theta_{1}} } J(\theta_{0},\theta_{1})$

θ_{0} = t e m p 0

$\theta_{0}=temp0$

θ_{1} = t e m p 1

$\theta_{1}=temp1$

注意

梯度下降算法过程中的步骤二、三顺序一定不要乱，因为第二步中的计算与 $\theta_{0}$ 是有关系的
对训练集数据进行均值归一化，利于提升收敛速度
注意学习步长的选择

多元线性回归：

多元线性回归是由单变量线性回归延伸而来的。多变量线性回归中的 $m$ 组数据 $表示如下：(x_1^{(1)},x_2^{(1)},…,x_n^{(1)},y^{(1)}),(x_1^{(2)},x_2^{(2)},…,x_n^{(2)},y^{(2)}),…,(x_1^{(m)},x_2^{(m)},…,x_n^{(m)},y^{(m)})$
预测函数

h_{\vec{θ}} (\vec{x}) = {\vec{θ}}^{T} \vec{x} = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + \dots + θ_{n} x_{n}

$h_{\vec{\theta}}(\vec{x}) ={\vec{\theta}}^T\vec{x} = \theta_{0} + \theta_{1}x_1 + \theta_{2}x_2 + …+ \theta_{n}x_n$ 其中，

\vec{θ} = (θ_{0}, θ_{1}, \dots, θ_{n})^{T}

${\vec{\theta}} = (\theta_0,\theta_1,…,\theta_n)^T$ ,

\vec{x} = (1, x_{1}, x_{2}, \dots, x_{n})^{T}

$\vec{x} =(1,x_1,x_2,…,x_n)^T$
代价函数

J (\vec{θ}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{\vec{θ}} {\vec{x}}^{(i)} - y^{(i)})^{2}

$J(\vec{\theta}) = \frac{1}{2m}\sum_{i=1}^{m} (h_\vec{\theta} \vec{x}^{(i)}-y^{(i)})^2$ 目标求解

\vec{θ} = a r g min_{\vec{θ}} J (\vec{θ})

$\vec{\theta}=arg\min_{\vec{\theta}} J(\vec{\theta})$

梯度下降法

多元线性回归依然可以用梯度下架你敢发进行求解，只不过是在高维空间的梯度下降，不再是三维空间那么地可视化。具体算法过程：

t e m p 0 = θ_{0} - α \frac{\partial}{\partial θ_{0}} J (\vec{θ})

$temp0 = \theta_{0}-\alpha \frac{ \partial }{ \partial{\theta_{0}} } J(\vec{\theta})$

t e m p 1 = θ_{1} - α \frac{\partial}{\partial θ_{1}} J (\vec{θ})

$temp1 = \theta_{1}-\alpha \frac{ \partial }{ \partial{\theta_{1}} } J(\vec{\theta})$

\dots

$…$

t e m p n = θ_{n} - α \frac{\partial}{\partial θ_{n}} J (\vec{θ}))

$tempn = \theta_{n}-\alpha \frac{ \partial }{ \partial{\theta_{n}} } J(\vec{\theta}))$

θ_{0} = t e m p 0

$\theta_{0}=temp0$

θ_{1} = t e m p 1

$\theta_{1}=temp1$

\dots

$…$

θ_{n} = t e m p n

$\theta_{n}=tempn$

最小二乘

另外一个求解多元线性回归的方法是最小二乘法。具体推导如下：
整个预测过程可以用方程组表示为

{\vec{x}}^{(1)}^{T} \vec{θ} = y^{(1)}

${{\vec{x}}^{(1)}}^T \vec{\theta}= y^{(1)}$

{\vec{x}}^{(2)}^{T} \vec{θ} = y^{(2)}

${{\vec{x}}^{(2)}}^T \vec{\theta}= y^{(2)}$

\dots

$…$

{\vec{x}}^{(m)}^{T} \vec{θ} = y^{(m)}

${{\vec{x}}^{(m)}}^T \vec{\theta}= y^{(m)}$
将方程组表示成矩阵的形式，

X \vec{θ} = \vec{y}

$X\vec{\theta} = \vec{y}$ 其中，

矩 阵 X = [{\vec{x}}^{(1)}^{T}; {\vec{x}}^{(2)}^{T}; \dots; {\vec{x}}^{(m)}^{T}]

$矩阵X = [{\vec{x}^{(1)}}^{T} ; {\vec{x}^{(2)}}^{T}; … ; {\vec{x}^{(m)}}^{T} ]$ ,可以求解得到

\vec{θ} = (X^{T} X)^{- 1} X^{T} \vec{y}

$\vec{\theta} = (X^{T}X)^{-1}X^{T}\vec{y}$

最小二乘的几何意义

对方程组进行变换，令

{\vec{x}}_{i} = ({x_{i}}^{(1)} {x_{i}}^{(2)} \dots {x_{i}}^{(m)})^{T}

$\vec{x}_i = ( {x_i}^{(1) }{x_i}^{(2)} … {x_i}^{(m)} )^T$

\vec{y} = (y^{(1)} y^{(2)} \dots y^{(m)})^{T}

$\vec{y} = ( y^{(1)} y^{(2)} … y^{(m)} )^T$ 那么

\vec{y} = θ_{0} {\vec{x}}_{0} + θ_{1} {\vec{x}}_{1} + \dots + θ_{n} {\vec{x}}_{n}

$\vec{y} = \theta_0 \vec{x}_0 + \theta_1 \vec{x}_1 + … + \theta_n \vec{x}_n$ 其实，上式基本上是没有解的。但是，我们可以找到一个使得代价函数最小的解。代价函数最小的几何意义在于 在 $\vec{x}_0 \vec{x}_1 … \vec{x}_n$ 所张成的线性子空间中，寻找一点，使得这一点到 $\vec{y}$ 的距离最短。很显然，这一点就是 $\vec{y}$ 的投影，这也是最小二乘法求解的精髓所在。
那么，最小二乘实际上就是 把数据的每一个特征作为一个维度，计算出每个特征对于最终输出的权重 $\vec{\theta}$

最小二乘与梯度下降法的选择

当数据的特征 $n$ 超过一定界限时，最小二乘中矩阵的求逆运算将会变得十分复杂，此时一般会选择梯度下降法。至于这个界限，可以选择 $10^5$ ~ $10^6$ 作为参考。

多项式回归

多项式回归可以转变为多元线性回归，核心在于用已知的特征组合出新的特征。预测函数，例如

h_{\vec{θ}} (\vec{x}) = θ_{0} + θ_{1} x_{1} + θ_{2} x_{1}^{2} + θ_{3} \sqrt{x_{1}}

$h_{\vec{\theta}}(\vec{x}) = \theta_{0} + \theta_{1}{x_1}+ \theta_{2}x_1^2 + \theta_{3} \sqrt{x_1}$ 其中每一项都是可以计算出的。
至于多项式中应该选择怎样的高次项，就需要根据大概形状进行一个初次的选择。此外，也要根据实际情况，比如，房屋总价随着面积增长一般是不会减少的，所以此时应该二次项是不够的，还需要一个三次项。
在多项式回归中，特征的缩放将会变得尤其重要，因为其中含有同一特征的不同次项，他们的范围是不同的，但是由于是同一特征，不可能进行不同size的缩放的。