机器学习笔记4——过拟合与正则化

关键字:正则化参数

前言:有关代价函数,在笔记2和3逻辑回归和线性回归里面已经提到过。这里就不再过多介绍。

一、定义

因为训练模型中有些数据本来就有误差,所以不必把每个数据都考虑进去。

如果真的完全拟合到每一个数据,那么模型会变得很奇怪,导致新的预测数据来时,对应的预测值往往显然错误。这个现象就是过拟合。与过拟合相对的是欠拟合,这个模型就是非常简单的那种,导致连最基本的训练数据都训练不好。

二、过拟合的解决方法

Solution1:很多时候因为特征太多了,所以可以人工考虑去掉一些特征。比如模型选择算法

Solution1:正则化:保留所有特征,减少量级或者参数

三、正则化

3.1、概念:

这个是一种过拟合的现象(其实只要二次就可以了,不需要四次)

方法就是使得seta3和seta4尽可能小,才能对结果不怎么产生影响。最后两项依然存在。但是这个时候模型就会简单很多。

但是因为一开始不知道该挑选哪些参数使得他们尽可能小,所以得考虑代价函数。在原代价函数加入正则化项,此时记代价函数形式如下:注意从1开始的,lamana叫正则化参数,可以理解为对参数的惩罚)

lamana控制方括号的两项,控制是将训练集尽可能的拟合还是将参数的作用控制的更小

3.2、正则化线性回归

此时采用梯度下降法如下

或者:正规化(加上一项)


3.3.正则化逻辑模型


梯度下降法



这是观看吴恩达网易云机器学习系列做的笔记

图片来源于视频课件

猜你喜欢

转载自blog.csdn.net/qq_40597317/article/details/80933274
今日推荐