第七章-正则化深度之眼_吴恩达机器学习作业训练营

一，过拟合与欠拟合

二，正则化

2.1 正则化与损失函数

2.2 正则化与梯度下降法

2.3 正则化与正规方程法

三，总结

一，过拟合与欠拟合

在机器学习的过程中，很有可能出现以下两种情况：

1.模型训练完后对训练数据的拟合度依然不够，即为欠拟合现象（underfitting），也可称为 高偏差(high bias)。究其原因是模型对数据之间的选项无法充分把握或根本无法合理把握数据背后的客观规律，可通过搜集更多的数据，增加数据特征，增加模型复杂度等方式来解决。

解决办法有：修改模型，使用更复杂，学习能力更强的模型。

2.模型训练完后对训练数据的拟合度很高，但实际用来预测则效果很差，即为过拟合现象（overfitting），也可称为高方差（high variance）。究其原因，是因为所有样本都是在符合其客观规律的情况下夹杂了一些噪声干扰而产生的，当模型足够复杂时，模型会将数据内的噪声当作客观规律去学习，“学过头了”。

解决办法有：

a，减少特征数量，可手动人工减少，也可运用模型选择算法来实现。减少特征虽然可行，但也可能因为特征的减少而使得模型选择不精确。

b，正则化（regularization），这种方法能在保持已有特征的情况下解决过拟合问题，在特征数量重多时，也能工作的很好。

二，正则化

2.1 正则化与损失函数

实现正则化的具体办法即为在改变损失函数，增加一个有关模型复杂度的惩罚项。以均方差损失函数为例具体有：

$J(\theta) = \frac{1}{2m}\sum_{i=0}^{m} ( h_{\theta}(x^{i}) - y^{i})^{2} + \lambda \sum_{j=1}^{N} \theta^{2}_{j}$ (公式 7.1)

其中 $\sum_{j=1}^{N} \theta^{2}_{j}$ 即为惩罚项，用来控制高此项特征的作用，尽量的降低假设函数的复杂度。

$\lambda$ 是一个控制因子，用来控制损失函数的取值倾向。

当 $\lambda$ 较小时，模型倾向于复杂度较高的形式，容易产生过拟合。

当 $\lambda$ 较大时，模型倾向于复杂度较低的形式，容易产生欠拟合。

2.2 正则化与梯度下降法

当使用正则化后，梯度下降的迭代式也相应的发生改变，在线性回归和逻辑回归中，要变为以下形式：

$\theta_{0} = \theta_{0} - \frac{\alpha }{m} \sum _{i=1}^{m} (h_{\theta}(x^{i}) - y^{i})$ (公式7.2.1)

$\theta_{j} = \theta_{j} - \frac{\alpha}{m} [\sum _{i=1}^{m} (h_{\theta}(x^{i}) - y^{i})x^{i}_{j} + \lambda \theta_{j}], j = 1,2,......,N$ (公式7.2.2)

2.3 正则化与正规方程法

当使用正则化后，正则方程法的求解式也相应的发生改变，在线性回归和逻辑回归中，要变为以下形式：

$\theta = (X^{T}X - \lambda \begin{pmatrix} 0 & 0 & .... & 0\\ 0 &1 &.... & 0\\ .... &.... &.... &.... \\ 0& 0 & ....&1 \end{pmatrix})^{-1} X^{T}y$ (公式7.3)

可证明需要的逆矩阵一定存在，一定可以得到解析解。

三，总结

本章讨论了欠拟合和过拟合问题，由此引出了正则化的概念，并介绍了如何在梯度下降法和正规方程法中运用正则化。

凡尘维一心

发布了18 篇原创文章 · 获赞 2 · 访问量 724

私信关注