过拟合问题（overfitting）

例子

线性回归

如上图，第一幅图称为欠拟合，只使用了一次函数来拟合数据，拟合效果不好。第二幅图使用了二次函数来拟合，拟合效果不错。第三幅图使用了高次函数，样本点都在预测函数上，但是很明显这个预测函数不能去预测真正的房价。这个就被称为过拟合。
逻辑回归

与线性回归类似，第三幅图就是过拟合。

导致原因

特征太多了

解决方法

减少特征数量
- 人为减少特征
- 模型选择算法（自动减少特征，之后介绍）
正则化
- 保留了所有的特征，但是减小了参数的数量级（或者说值）

正则化

一个例子

在这里插入图片描述
如上图，第二幅图因为多了两个特征，导致出现过拟合。那么如何来在不减少特征数量的情况下，对其进行修正来让其拟合效果更好呢？
主要思路：使最后两项影响变小，即使 $\theta_3和\theta_4$ 变小，来让预测函数表现的像二次函数一样。对于一般的正则化，就是使某些参数的影响减小，来避免出现过拟合。

正则化处理后的代价函数

选择一些参数，在代价函数中对其增加“惩罚”，那么在最小化代价函数的时候，这些参数将会变小，这样就达到了正则化。
$J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})^2+\lambda\sum_{i=1}^n \theta_j^2]$
一般来说，对 $\theta_0$ 不进行惩罚，所以从 $\theta_1$ 开始。式中的 $\lambda$ 称为正则化参数。 $\lambda$ 不能太大（比如 $10^{10}$ ），若是太大，将会导致除了 $\theta_0$ 之外的参数过小，预测函数 $h_\theta(x)\approx\theta_0$ ，这样很明显预测函数的拟合效果非常差。

线性回归的正则化

梯度下降法

在这里插入图片描述
比起之前的梯度下降法，使用了正则化之后，只是在后面加了一项 $\frac{\lambda}{m} \theta_j$ 。而整理之后，发现就是给 $\theta_j$ 乘了 $(1-\alpha\frac{\lambda}{m})$ ，这个数是一个小于1的正数。

正规方程法

在这里插入图片描述
比起之前的方法，这个地方只是在括号里加了一个矩阵 $\lambda \begin{bmatrix} 0........\\ 01...... \\ 001.....\\ ...........\\ .........1 \end{bmatrix}$
因为加了一个矩阵，所以在正规化方法中一般不会出现矩阵不可逆的情况。

逻辑回归

在这里插入图片描述
逻辑回归中正则化处理就是给代价函数中加入惩罚项 $\frac{\lambda}{2m} \sum_{j=1}^m \theta_j^2$

梯度下降法

在这里插入图片描述
与线性回归的梯度下降法很类似，但两者是不同的算法。

其他高级优化方法

（略写）
在这里插入图片描述

【吴恩达机器学习笔记】第八章：正则化

目录

过拟合问题（overfitting）

例子

导致原因

解决方法

正则化

一个例子

正则化处理后的代价函数

线性回归的正则化

梯度下降法

正规方程法

逻辑回归

梯度下降法

其他高级优化方法

猜你喜欢