正则化的简单介绍

日期：2020-07-16

作者：18届会长CYL

标签：机器学习正则化作用 L1、L2

什么是正则化（regularization）:

直观感受为在损失函数后面添加一个额外项。通常该项为L1范数或者是L2范数组成，又称为L1正则化项和L2正则化项。（注：也有其他形式的正则化）

L1正则化项：权值向量w中各个元素的绝对值之和，再乘以系数

L2正则化项：权值向量w中各个元素的平方和开平方根，再乘以系数

正则化作用：

L1正则化：可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择（问题1：为什么产生稀疏矩阵就可以用于特征选择，问题2：为什么可以产生稀疏矩阵）
L2正则化：可以有助于防止模型过拟合（问题3：为什么有助于防止过拟合）

解决问题
- 问题1：稀疏矩阵与特征选择的关系：
稀疏矩阵是指系数的稀疏矩阵，换句话说叫做权值的稀疏矩阵，也就是一个大部分权值都为0的矩阵。此矩阵表明，大部分特征对这个模型无贡献，或者贡献比较小，那么就可以筛查出来对模型有贡献的神经元。
- 问题2：为什么可以产生稀疏矩阵（凭什么加了个矩阵的系数和就可以让无用权值置零）
- 步骤1：化简损失函数
- 步骤2：考虑只有两个权值的情况w1,w2,那么令L = α（|w1|+|w2|）。原式的数学意义转化成在L的约束下求出J0的最小值解。（疯狂思考这里高数是怎么学的）
- 步骤3：图解圈圈是J0的等值线，菱形是L
- 步骤4：发现在最小值解的情况（第一次的交点，至于为什么交点即最优，疯狂思考高数问题）总是L的图像的尖尖的位置。（特点：坐标轴，换句话说某特征为0）
问题3、为什么L2正则化有助于防止过拟合

化简步骤省略

观察发现最优解部分大概率为非坐标轴部分，那么也就是所有的权值都不容易为0，（丧失了特征选择的优点），但是由于L2正则化可以让参数都比较小，所以不容易过拟合（试想如果某一个参数权值特别大，那么势必一个输入改变就会改变整个模型的输出结果，换个理解方式是，模型“记住了这个值”，导致泛化能力垃圾的一批，抗扰动能力差，直观表现就是训练集正确率OK，但是测试集不OK，即过拟合），到这里引申出来问题4：为什么加入L2正则化可以让最优解的参数普遍比较小
问题4：为什么加入L2正则化可以让最优解的参数普遍比较小
- 梯度下降（复习）是让权重沿着梯度的负方向进行“迈步”
- 加上正则化项的梯度下降表达式变为：（λ为正则化项系数）
  不加正则化项的梯度下降表达式为：
- 可以看出每次梯度下降过程中，权重都会乘以一个小于1的数

多说一点关于正则化的结论:

L1正则化系数的选择
• 系数越大越容易让矩阵越稀疏
L2正则化系数的选择
• 系数越大，权重衰减的越快，参数变得越小，太小的话会欠拟合，太大容易过拟合
正则化不止这两种
• 还有一些如 Dropout正则化操作（AlexNet模型中使用）后面结合AlexNet原始论文讲解

正则化的简单介绍

日期：2020-07-16

作者：18届会长CYL

标签：机器学习 正则化 作用 L1、L2

猜你喜欢

标签：机器学习正则化作用 L1、L2