深ハンズオン科学学習Task03-Task05

オーバーフィット、underfittingとその解決策

フィッティングオーバーフィッティングと貧しい
モデルクラスは、私たちがunderfittingとして知られる現象が(underfitting)します下訓練誤差を取得することができません。
他の訓練誤差のモデルはテストデータセットにそれがあるよりもはるかに小さいですエラーは、我々は(過学習)を過剰適合として、この現象を呼び出します。
ここに画像を挿入説明
L2ノルム正則化(正則化)
トレーニング機能を最小限にすることにより、元のモデルに基づいて、L2ノルム正則化L2ノルム追加ペナルティ用語損失関数。L2ノルムは、ペナルティ項が正で一定と各モデル要素の重み付けパラメータの二乗との積である指します。線形回帰損失関数線形回帰例
ここに画像を挿入説明
W1、W2は、B iはX(I)1偏差パラメータ入力サンプルであり、X(重みパラメータであり 、I)2 Y(I)、サンプル数を標識それはnです。[W1、W2] =ベクトルwによって重みパラメータはL2ノルムを持つ新しい損失関数を蹴る表す
ここに画像を挿入説明
前記超パラメータλ> 0。重み付けパラメータは、最小のペナルティ項がゼロである場合。場合λは、一般的に要素は重みパラメータが0に近い学習させる損失関数、の割合の点で大きなペナルティ大きいです。λが0に設定されている場合、ペナルティ項は全く効果がありません。前記二乗L2ノルム| W | 2拡大W21 + W22を取得します。少量の確率的勾配降下法では、我々はW2重みw1の変化及び反復的に回帰いずれかを線形うペナルティ項の後にL2ノルムを用いて、
ここに画像を挿入説明
可視光、L2ノルム正則化メイク重みW1およびW2は、第1未満の二乗しましたペナルティ項のない番号、マイナス勾配。したがって、L2ノルム正則化重みが減衰と呼ばれます。重量制限が有効なオーバーフィッティングであってもよい罰だけ大きいモデルパラメータの絶対値を学習する減衰モデルを増加させます。

廃棄方法

ここに画像を挿入説明
概要
underfitting現象は:モデルは、下のエラーを達成することはできません
過学習を:訓練誤差が低いが、それでも高い汎化誤差、両者の間に大きな違い

グラデーションが消え、勾配爆発

高度なリカレントニューラルネットワーク

GRU
RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)
⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系

ここに画像を挿入説明
• 重置⻔有助于捕捉时间序列⾥短期的依赖关系;
• 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

LSTM
长短期记忆long short-term memory :
遗忘门:控制上一时间步的记忆细胞 输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞:⼀种特殊的隐藏状态的信息的流动
ここに画像を挿入説明
深度循环神经网络
ここに画像を挿入説明
双向循环神经网络
ここに画像を挿入説明

机器翻译及相关技术

机器翻译和数据集
机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。
Encoder-Decoder
encoder:输入到隐藏状态
decoder:隐藏状态到输出
ここに画像を挿入説明
Sequence to Sequence模型
ここに画像を挿入説明
特定の構造:
Beam Search
ここに画像を挿入説明

注意力机制与Seq2seq模型

注意力机制
在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息,所以随着所需翻译句子的长度的增加,这种结构的效果会显著下降。

与此同时,解码的目标词语可能只与原输入的部分词语有关,而并不是与所有的输入有关。例如,当把“Hello world”翻译成“Bonjour le monde”时,“Hello”映射成“Bonjour”,“world”映射成“monde”。在seq2seq模型中,解码器只能隐式地从编码器的最终状态中选择相应的信息。然而,注意力机制可以将这种选择过程显式地建模。

ここに画像を挿入説明
注意力机制框架
ここに画像を挿入説明
引入注意力机制的Seq2seq模型
本节中将注意机制添加到sequence to sequence 模型中,以显式地使用权重聚合states。下图展示encoding 和decoding的模型结构,在时间步为t的时候。此刻attention layer保存着encodering看到的所有信息——即encoding的每一步输出。在decoding阶段,解码器的 t 时刻的隐藏状态被当作query,encoder的每个时间步的hidden states作为key和value进行attention聚合. Attetion model的输出当作成上下文信息context vector,并与解码器输入 Dt 拼接起来一起送到解码器:
ここに画像を挿入説明
ここに画像を挿入説明

卷积神经网络基础

卷积神经网络基础
本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。

二维卷积层
本节介绍的是最常见的二维卷积层,常用于处理图像数据。

二维互相关运算
二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子,阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。
ここに画像を挿入説明
互相关运算与卷积运算
卷积层得名于卷积运算,但卷积层中用到的并非卷积运算而是互相关运算。我们将核数组上下翻转、左右翻转,再与输入数组做互相关运算,这一过程就是卷积运算。由于卷积层的核数组是可学习的,所以使用互相关运算与使用卷积运算并无本质区别。

特征图与感受野
二维卷积层输出的二维数组可以看作是输入在空间维度(宽和高)上某一级的表征,也叫特征图(feature map)。影响元素 x 的前向计算的所有可能输入区域(可能大于输入的实际尺寸)叫做 x 的感受野(receptive field)。

以图1为例,输入中阴影部分的四个元素是输出中阴影部分元素的感受野。我们将图中形状为 2×2 的输出记为 Y ,将 Y 与另一个形状为 2×2 的核数组做互相关运算,输出单个元素 z 。那么, z 在 Y 上的感受野包括 Y 的全部四个元素,在输入上的感受野包括其中全部9个元素。可见,我们可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔,从而捕捉输入上更大尺寸的特征。

填充和步幅
我们介绍卷积层的两个超参数,即填充和步幅,它们可以对给定形状的输入和卷积核改变输出形状。

填充
填充(padding)是指在输入高和宽的两侧填充元素(通常是0元素),图2里我们在原输入高和宽的两侧分别添加了值为0的元素。
ここに画像を挿入説明
图2 在输入的高和宽两侧分别填充了0元素的二维互相关计算

如果原输入的高和宽是 nh 和 nw ,卷积核的高和宽是 kh 和 kw ,在高的两侧一共填充 ph 行,在宽的两侧一共填充 pw 列,则输出形状为:

(nh+ph−kh+1)×(nw+pw−kw+1)

我们在卷积神经网络中使用奇数高宽的核,比如 3×3 , 5×5 的卷积核,对于高度(或宽度)为大小为 2k+1 的核,令步幅为1,在高(或宽)两侧选择大小为 k 的填充,便可保持输入与输出尺寸相同。
步幅
在互相关运算中,卷积核在输入数组上滑动,每次滑动的行数与列数即是步幅(stride)。此前我们使用的步幅都是1,图3展示了在高上步幅为3、在宽上步幅为2的二维互相关运算。
ここに画像を挿入説明
图3 高和宽上步幅分别为3和2的二维互相关运算

一般来说,当高上步幅为 sh ,宽上步幅为 sw 时,输出形状为:

⌊(nh+ph−kh+sh)/sh⌋×⌊(nw+pw−kw+sw)/sw⌋

如果 ph=kh−1 , pw=kw−1 ,那么输出形状将简化为 ⌊(nh+sh−1)/sh⌋×⌊(nw+sw−1)/sw⌋ 。更进一步,如果输入的高和宽能分别被高和宽上的步幅整除,那么输出形状将是 (nh/sh)×(nw/sw) 。

当 ph=pw=p 时,我们称填充为 p ;当 sh=sw=s 时,我们称步幅为 s 。

卷积神经网络进阶

深度卷积神经网络(AlexNet)
LeNet: 在大的真实数据集上的表现并不尽如⼈意。
1.神经网络计算复杂。
2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。

机器学习的特征提取:手工定义的特征提取函数
神经网络的特征提取:通过学习得到数据的多级表征,并逐级表⽰越来越抽象的概念或模式。

神经网络发展的限制:数据、硬件

AlexNet
首次证明了学习到的特征可以超越⼿⼯设计的特征,从而⼀举打破计算机视觉研究的前状。
特征:

8层变换,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层。
将sigmoid激活函数改成了更加简单的ReLU激活函数。
用Dropout来控制全连接层的模型复杂度。
引入数据增强,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合。
ここに画像を挿入説明
使用重复元素的网络(VGG)
VGG:通过重复使⽤简单的基础块来构建深度模型。
Block:数个相同的填充为1、窗口形状为 3×3 的卷积层,接上一个步幅为2、窗口形状为 2×2 的最大池化层。
卷积层保持输入的高和宽不变,而池化层则对其减半。
ここに画像を挿入説明
⽹络中的⽹络(NiN)
LeNet、AlexNet和VGG:先以由卷积层构成的模块充分抽取 空间特征,再以由全连接层构成的模块来输出分类结果。
NiN:串联多个由卷积层和“全连接”层构成的小⽹络来构建⼀个深层⽹络。
⽤了输出通道数等于标签类别数的NiN块,然后使⽤全局平均池化层对每个通道中所有元素求平均并直接⽤于分类。
ここに画像を挿入説明
GoogLeNet
由Inception基础块组成。
Inception块相当于⼀个有4条线路的⼦⽹络。它通过不同窗口形状的卷积层和最⼤池化层来并⾏抽取信息,并使⽤1×1卷积层减少通道数从而降低模型复杂度。
可以⾃定义的超参数是每个层的输出通道数,我们以此来控制模型复杂度。
ここに画像を挿入説明
GoogLeNet模型
完整模型结构
ここに画像を挿入説明

リリース元の2件の記事 ウォンの賞賛0 ビュー63

おすすめ

転載: blog.csdn.net/u011593550/article/details/104378826