《动手学深度学习》笔记 Task06:批量归一化和残差网络;凸优化;梯度下降

学习地址:https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/jupyter/xfPhM5j9chB59NFhsKkpF

批量归一化和残差网络

批量归一化

概念

对输入的标准化(浅层模型)
处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近
批量归一化
利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。

1.对全连接层做批量归一化

位置:全连接层中的仿射变换和激活函数之间。

2.对卷积层做批量归一化

位置:卷积计算之后、应⽤激活函数之前。
如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数。 计算:对单通道,batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。

3.预测时的批量归一化

训练:以batch为单位,对每个batch计算均值和方差。
预测:用移动平均估算整个训练数据集的样本均值和方差。

残差网络(ResNet)

深度学习的问题:深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高,反而会招致网络收敛变得更慢,准确率也变得更差。

残差块(Residual Block)

恒等映射:
左边:f(x)=x
右边:f(x)-x=0 (易于捕捉恒等映射的细微波动)
在这里插入图片描述
在残差块中,输⼊可通过跨层的数据线路更快 地向前传播。

ResNet模型

卷积(64,7x7,3)
批量一体化
最大池化(3x3,2)

残差块x4 (通过步幅为2的残差块在每个模块之间减小高和宽)

全局平均池化

全连接

扫描二维码关注公众号,回复: 9623180 查看本文章

稠密连接网络(DenseNet)

在这里插入图片描述

主要构建模块

稠密块(dense block): 定义了输入和输出是如何连结的。
过渡层(transition layer):用来控制通道数,使之不过大。

凸优化

凸优化与深度学习

优化与估计

尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。

优化方法目标:训练集损失函数值
深度学习目标:测试集损失函数值(泛化性)

优化在深度学习中的挑战

局部最小值

在这里插入图片描述
在这里插入图片描述

鞍点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

梯度消失

凸性(convexity)

基础

在这里插入图片描述

集合

在这里插入图片描述

Jensen不等式\

在这里插入图片描述

性质

无局部最小值

在这里插入图片描述

与凸集的关系

在这里插入图片描述
在这里插入图片描述

凸函数与二阶导数

在这里插入图片描述

限制条件

在这里插入图片描述

拉格朗日乘子法

在这里插入图片描述

惩罚项

在这里插入图片描述

投影

在这里插入图片描述

梯度下降

一维梯度下降

在这里插入图片描述
学习率

在这里插入图片描述
在这里插入图片描述

多维梯度下降

在这里插入图片描述
在这里插入图片描述

自适应方法

牛顿法

在这里插入图片描述

收敛性分析

在这里插入图片描述
预处理(海森矩阵辅助梯度下降)

梯度下降与线性搜索(共轭梯度法)

随机梯度下降

随机梯度下降参数更新

在这里插入图片描述
在这里插入图片描述

动态学习率

在这里插入图片描述
在这里插入图片描述

小批量随机梯度下降

发布了79 篇原创文章 · 获赞 119 · 访问量 53万+

猜你喜欢

转载自blog.csdn.net/dujiahei/article/details/104440455
今日推荐