深度学习：正则化

正则化是为了使训练错误率和测试错误率的差距尽可能的缩小。以下为一些方法笔记：

L0范数惩罚：拿高次多项式函数进行说明，将参数不等于0的个数控制在c以内来达到限制模型的目的。
L1范数惩罚：要求参数数值的总和要小于某个数值，这种对参数数值总和的限制就是L1范数惩罚，也叫参数稀疏性惩罚。
L2范数惩罚：把对参数绝对值求和的限制改为对参数的平方求和的限制，也叫权重衰减惩罚。
对于代价函数，常使用MSE（最小均方误差）。其中正则项的系数控制着机器学习算法模型的能力，如果为0，则退化成原始模型，如果过大，则惩罚过严重，如果过小，则容易发生过拟合现象，如果过大，容易发生欠拟合现象。
L2是最常用的正则化措施，优点在于可导并且容易优化。
L1稀疏性有一个好处就是可以进行特征选择，因为大部分参数都是0，这样就可以自动筛选出一些无用的特征，这些特征很大程度上也就是噪声特征。
数据扩充可以看作是在输入数据中加入噪声，从而迫使算法拥有更强的健壮性。
针对过拟合现象所做的正则化措施总结有两点：一是限制模型能力，二是不断地加入噪声，给自己增加麻烦。
超参数：选择超参数其实就是寻找过拟合与欠拟合的最佳折中点，L2惩罚因子的取值、梯度下降中的步长的选择都被称为超参数。早停算法也可以看做是一种高效的超参数选择。
dropout是深度学习中一种计算廉价并且能力强大的正则化模型，思想来源于集成学习中的bagging。
Dropout：随机激活一定数量的神经元，然后执行一条或一小批数据，对激活的神经元进行误差反向传播修正权重，然后再次随机激活神经元训练网络。（dropout来源于生物进化：有性生殖和无性生殖，明明无性生殖对环境的忍耐性会更强，为什么大部分高级生物都是有性生殖呢？存在即合理，自然选择的评价标准可能不只是个体的适合度，更需要考虑基因的混合能力。）
在训练的阶段给每一个神经元独立的设置一个二项分布的“神经元激活”概率，若该值为0，则表明当前神经元抑制；若该值为1，则表明当前神经元可用。

深度学习：正则化

猜你喜欢