神经网络的过拟合问题

神经网络的过拟合问题


神经网络模型训练会出现三种情况:模型过于简单,模型合理,过拟合。
为避免过拟合问题,常常使用正则化方法

正则化的思想是: 在损失函数中加入刻画模型复杂程度的指标。
模型优化时需要优化该损失函数:

J ( θ ) + λ R ( w )

其中 J ( θ ) 为损失函数, θ 表示的是一个神经网络的所有参数,包括权重 w 和偏置 b

R ( w ) 为模型复杂度函数,一般模型的复杂度只由权重 w 决定,所以刻画模型复杂度的函数 R ( w ) 有两种:

  • 一种是L1正则化,公式为:
    R ( w ) = w 1 = i | w i |
  • 另一种为L2正则化,公式为:
    R ( w ) = w 2 2 = i | w i 2 |

联系与区别

联系:

  1. 无论哪一种正则化方式,基本思想都是希望通过限制权重的大小,使得模型不能任意拟合训练数据中的随机噪声。

区别:

  1. L1正则化会使参数变得更稀疏(即0元素更多),L2不会,因为某参数很小时,平方项可以忽略,模型就不会对其再进行调整。
  2. L1正则化公式不可导,L2正则化公式可导。

实际使用中:
可以将L1正则化和L2正则化分别赋权求和使用:
公式如下:

R ( w ) = i α | w i | + ( 1 α ) w i 2

其中: α ( 1 α ) 分别为L1正则化与L2正则化的权重。

猜你喜欢

转载自blog.csdn.net/liuxiaodong400/article/details/80900693