【深度学习笔记】正则化（Regularization）

其他 2018-11-03 07:41:33 阅读次数: 0

本文主要是对吴恩达《深度学习工程师》在线课程关于正则化部分的笔记整理，并进行了一定的扩展。

一、何为正则化

在《深度学习》【1】一书中，正则化的定义是“对学习算法的修改——旨在减少泛化误差而不是训练误差”。我们知道正则化的目的是减少过拟合，对应定义中的泛化误差。那是不是减少过拟合的方法都可以叫做正则化呢？这个问题我暂时还无法解答。通过查阅相关资料我发现，通常在机器学习中大家所说的正则化是对目标函数添加约束（惩罚）的一种方法，比如L2正则化。但是在《深度学习》的书中包括吴恩达的课程中，把那些能减少过拟合的方法都称作“正则化方法”。

《深度学习》第七章内容

关于正则化概念的进一步理解可看参考文献【2】、【3】

二、常见的正则化方法

1、参数范数惩罚

通过对目标函数 J 添加一个参数范数惩罚 Ω(θ)，限制模型（如神经网络、线性回归或逻辑回归）的学习能力。我们将正则化后的目标函数记为

J(θ;X,y) = J(θ;X,y) + αΩ(θ)

其中α就是正则化系数。

这里需要补充范数的概念。范数可以理解成距离的强化版本，比如L2范数就是欧氏距离。范数可以分为向量范数和矩阵范数，常见的L-P范数就是一系列向量范数。

$L_{p}=\sqrt[p]{\sum_{i}^{n}{x_{i}}^{p}}$

正则化中最常用的范数就是L1范数和L2范数。公式表达懒得打，见参考文献【4】

L1范数就是向量x中非零元素的绝对值之和。它又叫曼哈顿距离，最小绝对误差。由于对L1范数优化的解是一个稀疏解，所以L1范数又叫做稀疏规则算子。

L2范数是深度学习中最常见的正则化项,L2正则化又叫做weight decay，权重衰减。

$\frac{\lambda }{2m}{\left \| w \right \|_{2}}^{2}$

$\lambda$ 是正则系数。

由于在神经网络中，w是一个矩阵，所以L2范数变成了弗罗贝尼乌斯范数

${\left \| w \right \|_{F}}^{2}=\sum_{i=1}^{n}\sum_{j=1}^{m}{w_{ij}}^{2}$

关于范数更进一步的内容可以看参考文献【4】

2、Dropout regularization 随机失活

就是随机地丢掉一些隐藏单元，将其权重置零。其中涉及的超参数keep_prob就是隐藏单元保留的概率。

需要注意的是在训练时添加dropout，测试时不要使用。

3、Data Augmentation 数据增强

就是在数据输入神经网络之前对数据做一些增强的处理，比如对图片增强对比度，翻转，裁剪什么的。

4、Earlystoping 提前终止

就是让训练提前结束。由于缺陷明显，在此不做进一步探究。

三、为什么正则化可以减少过拟合？

这里的正则化指的是参数范数惩罚正则化方法。可以理解为因为将正则化系数设置得足够大，使得参数w接近于0，所以网络变得简单了。

参考文献

【1】https://github.com/exacity/deeplearningbook-chinese

【2】《【直观详解】什么是正则化》https://blog.csdn.net/haima1998/article/details/79425831

【3】《谈谈自己对正则化的一些理解~》https://blog.csdn.net/wsj998689aa/article/details/39547771

【4】《关于范数的知识整理》https://baijiahao.baidu.com/s?id=1607333156323286278&wfr=spider&for=pc

猜你喜欢

转载自blog.csdn.net/m0_37935211/article/details/82715916

【深度学习笔记】正则化（Regularization）

深度学习基础--正则化与norm--正则化(Regularization)

机器学习笔记——正则化（regularization）

机器学习笔记4：正则化（Regularization）

吴恩达深度学习笔记(32)-Dropout正则化Dropout Regularization

入理解深度学习——正则化（Regularization）：多任务学习

深度学习中的几种正则化（Regularization）方法

深入理解深度学习——正则化（Regularization）：稀疏表示

机器学习--正则化(Regularization)

吴恩达机器学习笔记8——正则化Regularization

深入理解深度学习——正则化（Regularization）：正则化和欠约束问题

深度学习中的归一化(normalization)和正则化(regularization)

深入理解深度学习——正则化（Regularization）：半监督学习

机器学习之正则化（Regularization）

机器学习中的正则化（Regularization）

机器学习基石14：正则化（Regularization）

机器学习(11) 正则化(Regularization)

深度学习笔记-正则化

从bias和variance来分析深度学习中的正则化(Regularization）和dropout

深入理解深度学习——正则化（Regularization）：噪声鲁棒性

深入理解深度学习——正则化（Regularization）：数据集增强

入理解深度学习——正则化（Regularization）：提前终止（Early Stopping）

深入理解深度学习——正则化（Regularization）：Bagging和其他集成方法

深入理解深度学习——正则化（Regularization）：参数绑定和参数共享

深入理解深度学习——正则化（Regularization）：作为约束的范数惩罚

正则化(Regularization)

正则化（regularization）

【ML】正则化 Regularization

Regularization（正则化）与Dropout

正则化 regularization

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)