【吴恩达机器学习笔记】第八章:正则化

过拟合问题(overfitting)

例子

  • 线性回归
    在这里插入图片描述
    如上图,第一幅图称为欠拟合,只使用了一次函数来拟合数据,拟合效果不好。第二幅图使用了二次函数来拟合,拟合效果不错。第三幅图使用了高次函数,样本点都在预测函数上,但是很明显这个预测函数不能去预测真正的房价。这个就被称为过拟合。
  • 逻辑回归
    在这里插入图片描述
    与线性回归类似,第三幅图就是过拟合。

导致原因

特征太多了

解决方法

  • 减少特征数量
    • 人为减少特征
    • 模型选择算法(自动减少特征,之后介绍)
  • 正则化
    • 保留了所有的特征,但是减小了参数的数量级(或者说值)

正则化

一个例子

在这里插入图片描述
如上图,第二幅图因为多了两个特征,导致出现过拟合。那么如何来在不减少特征数量的情况下,对其进行修正来让其拟合效果更好呢?
主要思路:使最后两项影响变小,即使 θ 3 θ 4 \theta_3和\theta_4 变小,来让预测函数表现的像二次函数一样。对于一般的正则化,就是使某些参数的影响减小,来避免出现过拟合。

正则化处理后的代价函数

选择一些参数,在代价函数中对其增加“惩罚”,那么在最小化代价函数的时候,这些参数将会变小,这样就达到了正则化。
J ( θ ) = 1 2 m [ i = 1 m ( h θ ( x ( i ) y ( i ) ) 2 + λ i = 1 n θ j 2 ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})^2+\lambda\sum_{i=1}^n \theta_j^2]
一般来说,对 θ 0 \theta_0 不进行惩罚,所以从 θ 1 \theta_1 开始。式中的 λ \lambda 称为正则化参数。 λ \lambda 不能太大(比如 1 0 10 10^{10} ),若是太大,将会导致除了 θ 0 \theta_0 之外的参数过小,预测函数 h θ ( x ) θ 0 h_\theta(x)\approx\theta_0 ,这样很明显预测函数的拟合效果非常差。

线性回归的正则化

梯度下降法

在这里插入图片描述
比起之前的梯度下降法,使用了正则化之后,只是在后面加了一项 λ m θ j \frac{\lambda}{m} \theta_j 。而整理之后,发现就是给 θ j \theta_j 乘了 ( 1 α λ m ) (1-\alpha\frac{\lambda}{m}) ,这个数是一个小于1的正数。

正规方程法

在这里插入图片描述
比起之前的方法,这个地方只是在括号里加了一个矩阵 λ [ 0........ 01...... 001..... . . . . . . . . . . . . . . . . . . . . 1 ] \lambda \begin{bmatrix} 0........\\ 01...... \\ 001.....\\ ...........\\ .........1 \end{bmatrix}
因为加了一个矩阵,所以在正规化方法中一般不会出现矩阵不可逆的情况。

逻辑回归

在这里插入图片描述
逻辑回归中正则化处理就是给代价函数中加入惩罚项 λ 2 m j = 1 m θ j 2 \frac{\lambda}{2m} \sum_{j=1}^m \theta_j^2

梯度下降法

在这里插入图片描述
与线性回归的梯度下降法很类似,但两者是不同的算法。

其他高级优化方法

(略写)
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42017042/article/details/86484134