深度学习:正则化

正则化是为了使训练错误率和测试错误率的差距尽可能的缩小。以下为一些方法笔记:

  1. L0范数惩罚:拿高次多项式函数进行说明,将参数不等于0的个数控制在c以内来达到限制模型的目的。
  2. L1范数惩罚:要求参数数值的总和要小于某个数值,这种对参数数值总和的限制就是L1范数惩罚,也叫参数稀疏性惩罚。
  3. L2范数惩罚:把对参数绝对值求和的限制改为对参数的平方求和的限制,也叫权重衰减惩罚。
  4. 对于代价函数,常使用MSE(最小均方误差)。其中正则项的系数控制着机器学习算法模型的能力,如果为0,则退化成原始模型,如果过大,则惩罚过严重,如果过小,则容易发生过拟合现象,如果过大,容易发生欠拟合现象。
  5. L2是最常用的正则化措施,优点在于可导并且容易优化。
  6. L1稀疏性有一个好处就是可以进行特征选择,因为大部分参数都是0,这样就可以自动筛选出一些无用的特征,这些特征很大程度上也就是噪声特征。
  7. 数据扩充可以看作是在输入数据中加入噪声,从而迫使算法拥有更强的健壮性。
  8. 针对过拟合现象所做的正则化措施总结有两点:一是限制模型能力,二是不断地加入噪声,给自己增加麻烦。
  9. 超参数:选择超参数其实就是寻找过拟合与欠拟合的最佳折中点,L2惩罚因子的取值、梯度下降中的步长的选择都被称为超参数。早停算法也可以看做是一种高效的超参数选择。
  10. dropout是深度学习中一种计算廉价并且能力强大的正则化模型,思想来源于集成学习中的bagging。
  11. Dropout:随机激活一定数量的神经元,然后执行一条或一小批数据,对激活的神经元进行误差反向传播修正权重,然后再次随机激活神经元训练网络。(dropout来源于生物进化:有性生殖和无性生殖,明明无性生殖对环境的忍耐性会更强,为什么大部分高级生物都是有性生殖呢?存在即合理,自然选择的评价标准可能不只是个体的适合度,更需要考虑基因的混合能力。)
  12. 在训练的阶段给每一个神经元独立的设置一个二项分布的“神经元激活”概率,若该值为0,则表明当前神经元抑制;若该值为1,则表明当前神经元可用。

猜你喜欢

转载自blog.csdn.net/fengchi863/article/details/80890512