Tips for Generation in Encoder-Decoder model - 代码天地

Tips for Generation in Encoder-Decoder model

其他 2018-09-18 10:19:07 阅读次数: 0

这里归纳一些在训练Encoder-Decoder模型时的小tip：

1.训练时，在Decoder中，RNN的当前输入应该使用上一次RNN的output还是ground truth ?

答：如果训练时都使用ground truth作为RNN的当前输入，那么会导致train 和 test的mismatch。因此test时我们没有sample，test的时候只能将上一时间的output作为当前input。这种mismatch会导致一些很大的影响，专业术语叫： eposure bias

exposure bias会有什么不好呢？

举个例子：

图中：上面代表train过程，下面代表test过程

图中可以看出，我们现在train的sample是ABB，那么再给model输入BOS后，model会被告知要向A走，然后在已知前一步是A的情况下，它要学习走向B，然后在已知前面2步是A B 的情况下，要去学习走向B。

最后路径是这样的：

OK，现在我们假设机器犯了一个错，如下图：

也就是现在机器在判断第一步的时候，它本来应该要去A，但是他选择了B，这样的话，如果你用的是sample，并不会影响到后面的判断，因为第二部的时候你的输入是ground truth，也就是虽然你第一步选择了B，但是第二步的输入还是A，机器仍然可以继续正确地预测下去，这样到最后，计算loss的时候就只有第一步的loss。 OK，那么让我们来看看同样的情况在test上会怎样：

同样假设机器在第一步的时候，选择了和sample相反的B。

那么，完了。因为，机器在train的时候并没有被告知第一步是B的情况下，后面要怎么走，train的时候input永远是ground truth，这样会导致：

爆炸，坏掉。。。。。。

也就是说，train使用sample的方法，使得在train中可能只是一步出现loss的情况，在test的时候会导致全盘炸裂，这就是mismatch的后果。

怎么解决呢？有人可能会说，那么我们将train也使用上一次的预测值不就match 了吗？

我们来看看：

上图给出了一个例子：也就是sample是ABB 。现在我们假设机器刚刚开始训练，它现在可能会犯很多错，比如现在他的预测是BAA，完全错误的。我们现在让机器使用之前的预测作为当前输入。

那么现在通过BP，机器会尝试去将第一步的A概率提升，第二步的B概率提升，也就是如下图：

看起来好像没什么，但是当我们将这个概率提升到一定程度的时候，比如现在机器已经学会在第一步判断为A了，那么第二步的输入就会变成A，这时候，原来第二步我们训练的时候是以输入为B的前提下进行训练，机器可能马上学会在B的前提下要去判断B。现在前提换成了A，导致之前对第二步的训练都白练了。。。。。。

因此，这样的坏处就是，机器不容易学习，或者说学习的特别慢。会出现前面的学好了，后面的还得重新开始学的情况。

那么最好的方法是什么呢？

Scheduled Sampling

一幅图说明一切：

也就是通过一个随机判断来决定这次使用sample还是上一次的prediction作为输入。

实验结果表明，这样是最好的选择：

猜你喜欢

转载自blog.csdn.net/hx14301009/article/details/80459087

Tips for Generation in Encoder-Decoder model

Encoder and Decoder with Attention Model

Encoder-Decoder模型

Encoder-Decoder 架构实现

Encoder-Decoder 预训练

ChatGPT 的结构：Encoder-Decoder

Shepherd: A Critic for Language Model Generation

Causal decoder、Prefix decoder和encoder-decoder

Encoder-Decoder模型和Attention模型

Encoder-Decoder(有待编写）

Encoder-Decoder综述理解(推荐)

RNN成长记(三)：Encoder-Decoder

Encoder-Decoder 模型架构详解

layoutdm:discrete diffusion model for controllable layout generation

SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

用Encoder-Decoder模型自动生成文本摘要

Encoder-Decoder （based on RNNS / LSTM）用于序列学习方案

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation要点

论文笔记：GRU----RNN Encoder-Decoder

摒弃encoder-decoder结构，Pervasive Attention模型与Keras实现

「Computer Vision」Note on Fully Convolutional Encoder-Decoder Network

从Encoder-Decoder(Seq2Seq)理解Attention的本质

基于encoder-decoder和DCGAN的轨迹压缩研究

LSTM 07：如何用Keras开发 Encoder-Decoder LSTM

拆 Transformer 系列一：Encoder-Decoder 模型架构详解

Encoder-Decoder架构与注意力机制

Rethinking Image Inpainting via a Mutual Encoder-Decoder with Feature Equalizations

学习笔记：深度学习（7）——从Encoder-Decoder到Transformer

Encoder-Decoder with Atrous Separable Convolution for Semantic ImageSegmentation 论文精读

【原创】实现ChatGPT中Transformer模型之Encoder-Decoder

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)