神经网络的过拟合问题
神经网络模型训练会出现三种情况:模型过于简单,模型合理,过拟合。
为避免过拟合问题,常常使用正则化方法
正则化的思想是: 在损失函数中加入刻画模型复杂程度的指标。
模型优化时需要优化该损失函数:
其中: 为损失函数, 表示的是一个神经网络的所有参数,包括权重 和偏置 ;
为模型复杂度函数,一般模型的复杂度只由权重 决定,所以刻画模型复杂度的函数 有两种:
- 一种是L1正则化,公式为:
- 另一种为L2正则化,公式为:
联系与区别
联系:
- 无论哪一种正则化方式,基本思想都是希望通过限制权重的大小,使得模型不能任意拟合训练数据中的随机噪声。
区别:
- L1正则化会使参数变得更稀疏(即0元素更多),L2不会,因为某参数很小时,平方项可以忽略,模型就不会对其再进行调整。
- L1正则化公式不可导,L2正则化公式可导。
实际使用中:
可以将L1正则化和L2正则化分别赋权求和使用:
公式如下:
其中: 和 分别为L1正则化与L2正则化的权重。