正则化的简单介绍

日期:2020-07-16

作者:18届会长CYL
标签:机器学习 正则化 作用 L1、L2
  • 什么是正则化(regularization):

直观感受为在损失函数后面添加一个额外项。通常该项为L1范数或者是L2范数组成,又称为L1正则化项和L2正则化项。(注:也有其他形式的正则化)

L1正则化项:权值向量w中各个元素的绝对值之和,再乘以系数
在这里插入图片描述
L2正则化项:权值向量w中各个元素的平方和开平方根,再乘以系数
在这里插入图片描述

  • 正则化作用:

L1正则化:可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择(问题1:为什么产生稀疏矩阵就可以用于特征选择,问题2:为什么可以产生稀疏矩阵)
L2正则化:可以有助于防止模型过拟合(问题3:为什么有助于防止过拟合)

  • 解决问题

    • 问题1:稀疏矩阵与特征选择的关系:

    稀疏矩阵是指系数的稀疏矩阵,换句话说叫做权值的稀疏矩阵,也就是一个大部分权值都为0的矩阵。此矩阵表明,大部分特征对这个模型无贡献,或者贡献比较小,那么就可以筛查出来对模型有贡献的神经元。

    • 问题2:为什么可以产生稀疏矩阵(凭什么加了个矩阵的系数和就可以让无用权值置零)
    • 步骤1:化简损失函数
      在这里插入图片描述
    • 步骤2:考虑只有两个权值的情况w1,w2,那么令L = α(|w1|+|w2|)。原式的数学意义转化成在L的约束下求出J0的最小值解。(疯狂思考这里高数是怎么学的)
    • 步骤3:图解 圈圈是J0的等值线,菱形是L
      在这里插入图片描述
    • 步骤4:发现在最小值解的情况(第一次的交点,至于为什么交点即最优,疯狂思考高数问题)总是L的图像的尖尖的位置。(特点:坐标轴,换句话说某特征为0)
  • 问题3、为什么L2正则化有助于防止过拟合

    化简步骤省略
    在这里插入图片描述
    观察发现最优解部分大概率为非坐标轴部分,那么也就是所有的权值都不容易为0,(丧失了特征选择的优点),但是由于L2正则化可以让参数都比较小,所以不容易过拟合(试想如果某一个参数权值特别大,那么势必一个输入改变就会改变整个模型的输出结果,换个理解方式是,模型“记住了这个值”,导致泛化能力垃圾的一批,抗扰动能力差,直观表现就是训练集正确率OK,但是测试集不OK,即过拟合),到这里引申出来问题4:为什么加入L2正则化可以让最优解的参数普遍比较小

  • 问题4:为什么加入L2正则化可以让最优解的参数普遍比较小

    • 梯度下降(复习)是让权重沿着梯度的负方向进行“迈步”
    • 加上正则化项的梯度下降表达式变为:(λ为正则化项系数)在这里插入图片描述
      不加正则化项的梯度下降表达式为:在这里插入图片描述
    • 可以看出每次梯度下降过程中,权重都会乘以一个小于1的数

多说一点关于正则化的结论:

L1正则化系数的选择
• 系数越大越容易让矩阵越稀疏
L2正则化系数的选择
• 系数越大,权重衰减的越快,参数变得越小,太小的话会欠拟合,太大容易过拟合
正则化不止这两种
• 还有一些 如 Dropout正则化 操作(AlexNet模型中使用) 后面结合AlexNet原始论文讲解

猜你喜欢

转载自blog.csdn.net/cyl_csdn_1/article/details/108685706
今日推荐