吴恩达机器学习 笔记二 线性回归

单变量线性回归

简单线性回归

  假设样本中有 m 组数据 ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , , ( x ( m ) , y ( m ) )
  预测函数

h θ ( x ) = θ 0 + θ 1 x
  代价函数
J ( θ 0 , θ 1 ) = 1 2 m i = 1 m ( h θ x ( i ) y ( i ) ) 2
  目标求解
( θ 0 , θ 1 ) = a r g min θ 0 , θ 1 J ( θ 0 , θ 1 )
  比较常用的方法就是梯度下降法。梯度与方向导数密切相关,是从泰勒级数的展开来证明的,比较简单,这里就不推导了。具体算法过程:
t e m p 0 = θ 0 α θ 0 J ( θ 0 , θ 1 )
t e m p 1 = θ 1 α θ 1 J ( θ 0 , θ 1 )
θ 0 = t e m p 0
θ 1 = t e m p 1

注意

  • 梯度下降算法过程中的步骤二、三顺序一定不要乱,因为第二步中的计算与 θ 0 是有关系的

  • 对训练集数据进行均值归一化,利于提升收敛速度

  • 注意学习步长的选择

多元线性回归:

  多元线性回归是由单变量线性回归延伸而来的。多变量线性回归中的 m 组数据 ( x 1 ( 1 ) , x 2 ( 1 ) , , x n ( 1 ) , y ( 1 ) ) , ( x 1 ( 2 ) , x 2 ( 2 ) , , x n ( 2 ) , y ( 2 ) ) , , ( x 1 ( m ) , x 2 ( m ) , , x n ( m ) , y ( m ) )
  预测函数

h θ ( x ) = θ T x = θ 0 + θ 1 x 1 + θ 2 x 2 + + θ n x n
其中, θ = ( θ 0 , θ 1 , , θ n ) T , x = ( 1 , x 1 , x 2 , , x n ) T
  代价函数
J ( θ ) = 1 2 m i = 1 m ( h θ x ( i ) y ( i ) ) 2
  目标求解
θ = a r g min θ J ( θ )

梯度下降法

  多元线性回归依然可以用梯度下架你敢发进行求解,只不过是在高维空间的梯度下降,不再是三维空间那么地可视化。具体算法过程:

t e m p 0 = θ 0 α θ 0 J ( θ )
t e m p 1 = θ 1 α θ 1 J ( θ )
t e m p n = θ n α θ n J ( θ ) )
θ 0 = t e m p 0
θ 1 = t e m p 1
θ n = t e m p n

最小二乘

  另外一个求解多元线性回归的方法是最小二乘法。具体推导如下:
  整个预测过程可以用方程组表示为

x ( 1 ) T θ = y ( 1 )
x ( 2 ) T θ = y ( 2 )
x ( m ) T θ = y ( m )

  将方程组表示成矩阵的形式,
X θ = y
其中, X = [ x ( 1 ) T ; x ( 2 ) T ; ; x ( m ) T ] ,可以求解得到
θ = ( X T X ) 1 X T y

最小二乘的几何意义

  对方程组进行变换,令

x i = ( x i ( 1 ) x i ( 2 ) x i ( m ) ) T
y = ( y ( 1 ) y ( 2 ) y ( m ) ) T
那么
y = θ 0 x 0 + θ 1 x 1 + + θ n x n
  其实,上式基本上是没有解的。但是,我们可以找到一个使得代价函数最小的解。代价函数最小的几何意义在于 x 0 x 1 x n 所张成的线性子空间中,寻找一点,使得这一点到 y 的距离最短。很显然,这一点就是 y 的投影,这也是最小二乘法求解的精髓所在。
  那么,最小二乘实际上就是 把数据的每一个特征作为一个维度,计算出每个特征对于最终输出的权重 θ

最小二乘与梯度下降法的选择

  当数据的特征 n 超过一定界限时,最小二乘中矩阵的求逆运算将会变得十分复杂,此时一般会选择梯度下降法。至于这个界限,可以选择 10 5 ~ 10 6 作为参考。

多项式回归

  多项式回归可以转变为多元线性回归,核心在于用已知的特征组合出新的特征。预测函数,例如

h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 1 2 + θ 3 x 1
其中每一项都是可以计算出的。
  至于多项式中应该选择怎样的高次项,就需要根据大概形状进行一个初次的选择。此外,也要根据实际情况,比如,房屋总价随着面积增长一般是不会减少的,所以此时应该二次项是不够的,还需要一个三次项。
  在多项式回归中,特征的缩放将会变得尤其重要,因为其中含有同一特征的不同次项,他们的范围是不同的,但是由于是同一特征,不可能进行不同size的缩放的。

猜你喜欢

转载自blog.csdn.net/qsdzxp/article/details/81783358