小匠_碣 第三周期打卡 Task06~Task08

Task06:批量归一化和残差网络;凸优化;梯度下降

批量归一化和残差网络

对输入的标准化(浅层模型)

  处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
  标准化处理输入数据使各个特征的分布相近

批量归一化(深度模型)

  利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。

 

ResNet:

  残差网络,普通神经网络和残差网络对比,残差网络拟合的是残差,残差块通过跨层的数据通道从而能够训练出有效的深度神经网络。

  稠密连接网络(DenseNet):

    DenseNet包括稠密块(dense block)和过渡层(transition layer),前者定义了输 入和输出是如何连结的,后者则用来控制通道数,使之不过大。

 

  稠密块:

    输出通道数=输入通道数+卷积层个数*卷积输出通道数

 

  过渡层:

    由于每个稠密块都会带来通道数的增加,使用过多则会带来过于复杂的模型。过渡层用来控制模 型复杂度。它通过1 × 1卷积层来减小通道数,并使用步幅为2的平均池化层减半高和宽,从而进 一步降低模型复杂度。

 

练习:

nn.BatchNorm2d(6)的含义是:D

A:全连接层的批量归一化,batchsize为6

B:卷积层的批量归一化,batchsize为6

C:全连接层的批量归一化,输出神经元个数为6

D:卷积层的批量归一化,通道数为6

nn.BatchNorm2d()表示卷积层的BN,参数为通道数。nn.BatchNorm1d()表示全连接层的BN,参数为输出神经元个数。

 

关于BN层描述错误的是:B

A:卷积层的BN位于卷积计算之后,激活函数之前。

B:拉伸参数和偏移参数均为超参数。

C:预测时用移动平均估算整个训练数据集的样本均值和方差。

D:BN层能使整个神经网络在各层的中间输出的数值更确定。

选项1:正确,参考BN层的定义。

选项2:错误,拉伸参数和偏移参数为可学习参数。

选项3:正确,参考BN层的定义。

选项4:正确,参考BN层的定义

 

关于ResNet描述错误的是:C

A:残差网络由多个残差块组成。

B:在残差块中,输入可通过跨层的数据线路更快地向前传播。

C:可以通过不断加深网络层数提高分类性能。

D:较普通网络而言,残差网络在网络较深时能更好的收敛。

选项1:正确,参考ResNet的结构特征。

选项2:正确,参考ResNet的结构图。

选项3:错误,网络达到一定深度后再一味地增加层数反而会招致网络收敛变得更慢,准确率也变得更差。

选项4:正确,参考ResNet的结构特征。

 

 

稠密连接网络过渡层中,1*1卷积层的主要作用是:A

A:减小通道数

B:增加通道数

C:引入非线性

D:代替全连接层

减小通道数正确,参考过渡层的作用。

凸优化

优化方法的目标是最小化 训练集损失函数,深度学习的目标是最小化 测试集 损失函数值。

局部最小值、鞍点、梯度消失都属于优化在深度学习中面临的挑战。

鞍点是对所有自变量一阶偏导数都为0,而且Hessian矩阵特征值有正有负的点。

假设A和B都是凸集合,A和B的交集也是凸集合。

有限制条件的优化问题可以用拉格朗日乘子法、添加惩罚项、投影法解决。

梯度下降

关于梯度下降,局部极小值是梯度下降算法面临的一个挑战。梯度下降是沿着梯度的反方向移动自变量从而减小函数值的。

牛顿法:

  牛顿法相比梯度下降的一个优势在于:梯度下降‘步幅’的确定较为困难,而牛顿法相当于可以通过Hessian矩阵来调整‘步幅’。

  在牛顿法中,局部极小值也可以通过调整学习率来解决。

  牛顿法需要计算Hessian矩阵的逆,计算量比较大。

随机梯度下降的时间复杂度为:O(1)

  

  梯度下降算法中的正数 η 通常叫作学习率。这是一个超参数,需要人工设定。如果使用过小的学习率,会导致 x 更新缓慢从而需要更多的迭代才能得到较好的解。学习率选择太大则,步子太大,容易扯着蛋, 跨越最优解。

  
小批量随机梯度下降在参数进行更新的时候每一次取一小部分样本进行梯度下降,对梯度取均值进行梯度更新。当批量较大时,每个小批量梯度里可能含有更多的冗余信息。为了得到较好的解,批量较大时比批量较小时需要计算的样本数目可能更多,例如增大迭代周期数

  

对于动态学习率:

  在最开始学习率设计比较大,加速收敛。

  学习率可以设计为指数衰减或多项式衰减。

  在优化进行一段时间后可以适当减小学习率来避免震荡。

  动态学习率可以随着迭代次数增加减小学习率。


\mathcal{O}(

Task07:优化算法进阶;word2vec;词嵌入进阶

优化算法进阶

word2vec

词嵌入进阶

 

Task08:文本分类;数据增强;模型微调

文本分类

数据增强

型微调

nn.BatchNorm2d(6)的含义是

全连接层的批量归一化,batchsize为6

卷积层的批量归一化,batchsize为6

全连接层的批量归一化,输出神经元个数为6

卷积层的批量归一化,通道数为6

答案解释

2.

关于BN层描述错误的是

卷积层的BN位于卷积计算之后,激活函数之前。

拉伸参数和偏移参数均为超参数。

预测时用移动平均估算整个训练数据集的样本均值和方差。

BN层能使整个神经网络在各层的中间输出的数值更稳定。

答案解释

3.

关于ResNet描述错误的是

残差网络由多个残差块组成。

在残差块中,输⼊可通过跨层的数据线路更快地向前传播。

可以通过不断加深网络层数来提高分类性能。

较普通网络而言,残差网络在网络较深时能更好的收敛。

答案解释

4.

稠密连接网络过渡层中,1*1卷积层的主要作用是

减小通道数

增加通道数

引入非线性

代替全连接层

答案解释

5.

在稠密块中,假设由3个输出通道数为8的卷积层组成,稠密块的输入通道数是3,那么稠密块的输出通道数是

8

11

24

27

答案解释

猜你喜欢

转载自www.cnblogs.com/Dreamer-Jie/p/12353007.html