深度学习中Dropout和Layer Normalization技术的使用 - 代码天地

深度学习中Dropout和Layer Normalization技术的使用

其他 2018-09-19 06:59:32 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/hellonlp/article/details/78079582

两者的论文：

Dropout：http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf

Layer Normalization: https://arxiv.org/abs/1607.06450

RECURRENT NEURAL NETWORK REGULARIZATION https://arxiv.org/pdf/1409.2329.pdf

两者的实现（以nematus为例子）：

https://github.com/EdinburghNLP/nematus/blob/master/nematus/layers.py

GUR中搞Dropout的地方：

readout那一层的操作：

疑问：

1. 为什么Dropout放在LN前面？

其他人不是这个顺序

https://stackoverflow.com/questions/39691902/ordering-of-batch-normalization-and-dropout-in-tensorflow

BatchNorm -> ReLu(or other activation) -> Dropout

2. 为什么 state_below_，pctx_也要做LN？（后面没有直接上激活函数呢？）

在gru_layer中，state_below_做LN（输入的是src）：

在gru_cond_layer中，state_below_又不做LN（输入的是trg）：

3. Dropout以在Scan里面生成不行：https://groups.google.com/forum/#!topic/lasagne-users/3eyaV3P0Y-E

https://groups.google.com/forum/#!topic/theano-users/KAN1j7iey68

4. Dropout in RNN

RECURRENT NEURAL NETWORK REGULARIZATION里介绍上一个hidden state传进来不要记性dropout(Figure 2)，但是Nematus里面却搞了...

5. residual connections

关于residual connections，https://github.com/harvardnlp/seq2seq-attn写着：res_net: Use residual connections between LSTM stacks whereby the input to the l-th LSTM layer of the hidden state of the l-1-th LSTM layer summed with hidden state of the l-2th LSTM layer. We didn't find this to really help in our experiments.

猜你喜欢

转载自blog.csdn.net/hellonlp/article/details/78079582

深度学习中Dropout和Layer Normalization技术的使用

Batch Normalization和Dropout如何搭配使用？

深度学习神经网络中的layer-normalization

深度学习基础系列（九）| Dropout VS Batch Normalization? 是时候放弃Dropout了深度学习基础系列（七）| Batch Normalization

深入浅出——深度学习中的Batch Normalization使用

深度学习总结：用pytorch做dropout和Batch Normalization时需要注意的地方，用tensorflow做dropout和BN时需要注意的地方,

【转载】深度学习总结：用pytorch做dropout和Batch Normalization时需要注意的地方，用tensorflow做dropout和BN时需要注意的地方,

深度学习中的Normalization

Layer Normalization学习笔记

人工神经网络知识、激活函数、正则化、优化技术、Batch Normalization、Layer Normalization

tensorflow中Batch Normalization和Layer Normalization的实现

batch normalization 与 layer normalization

Batch Normalization & Layer Normalization

深度学习中的Batch Normalization

深度学习中的Normalization模型

深度学习中的normalization 方法

batch_normalization和layer normalization的区别

【深度学习】深度学习中的Normalization

Layer Normalization

caffe+报错︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization

激活函数，Batch Normalization和Dropout

Layer Normalization, Instance Normalization, Group Normalization

MXNET深度学习框架-16-使用gluon实现dropout

深度学习回归任务要谨慎使用Dropout

【深度学习】实验13 使用Dropout抑制过拟合

深度学习——Batch Normalization

【深度学习】 Batch Normalization

【深度学习】batch normalization

深度学习-Batch Normalization

【深度学习】：Batch Normalization

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)