论文阅读 seq2seq模型的coverage机制 - 代码天地

论文阅读 seq2seq模型的coverage机制

其他 2018-08-10 05:16:57 阅读次数: 0

Get To The Point: Summarization with Pointer-Generator Networks

Abigail See, Peter J. Liu, Christopher D. Manning
Standford University & Google Brain, 2017

这是ACL2017上的一篇文章，提出了coverage机制，目的是为了解决seq2seq模型生成句子中经常有重复片段的现象。

之前Statistical Machine Translation就已经存在该机制了，NMT中也有人应用了。但是这篇率先用于生成式任务。
BTW这篇文章的结构图相当好看，似乎就是用ppt做的，code也开源了：
https://github.com/abisee/pointer-generator

先看看seq2seq的结构：
这里写图片描述
再看看加coverage机制的结构图：

图中的 ${p_{gen}}$ 机制就是pointer softmax，详细可以见另一篇介绍copy机制的文章：seq2seq模型中的copy机制

整体结构和pointer generator network是一样的，需要改动的是attention的部分：

e_{i}^{t} = v^{T} t a n h (W_{h} h_{i} + W_{s} s_{t} + w_{c} c_{i}^{t} + b)

${e_i^t=v^Ttanh(W_h h_i+W_s s_t+w_c c_i^t+b) }$

这里的c指的不是语义向量，是新定义的一个参数：

c^{t} = \sum_{t^{'} = 1}^{t - 1} a^{t^{'}}

${ c^t = \sum\limits_{t'=1}^{t-1} a^{t'}}$

${ c^t}$ 就是一个长度为输入长度的向量，第一项是之前时刻输入第一个词attention权重的叠加和，第二项是之前时刻输入第二个词attention权重的叠加和，and so on。加这个参数的目的是为了给attention之前生成词的信息，如果之前生成过这些词那么后续要抑制。抑制通过loss函数加惩罚项实现：

l o s s_{t} = - l o g P (ω_{t} *) + λ \sum_{i} m i n (a_{i}^{t}, c_{i}^{t})

${loss_t = -logP(\omega_t*) +\lambda \sum_i min(a_i^t,c_i^t) }$

原理很直观，如果之前该词出现过了，那么它的 ${c_i^t}$ 就很大，那么为了减少loss，就需要 ${a_i^t}$ 变小（因为loss是取两者较小值）， ${a_i^t}$ 小就代表着这个位置被注意的概率减少。

从结果上来看，在CNN/Daily Mail dataset上有一定的提升。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/thormas1996/article/details/81536977

论文阅读 seq2seq模型的coverage机制

tensorflow seq2seq模型代码阅读分析

Pytorch学习记录- 训练Attention机制的Seq2Seq（论文再读）

tensorflow之seq2seq阅读笔记

【论文写作分析】之一《基于混合注意力Seq2seq模型的选项多标签分类》

seq2seq模型

Seq2Seq模型与注意力机制

注意力机制和Seq2seq模型

注意力机制与Seq2seq模型

Pytorch学习记录- 训练GRU Seq2Seq（论文再读）

【论文泛读04】用神经网络进行序列到序列（seq2seq）学习

深度学习：Seq2seq模型

seq2seq模型笔记

Seq2Seq模型讲解

seq2seq模型详解

seq2seq模型实现

深度学习的seq2seq模型

简单的seq2seq 模型

Seq2Seq模型应用案例

pytorch seq2seq模型示例

pytorch seq2seq模型

浅谈Seq2Seq模型

什么是Seq2Seq模型

seq2seq模型原理及实现

Seq2Seq

人工智能-生成模型-Seq2Seq：Seq2Seq模型优化方案

非RNN的新型seq2seq任务网络模型(self-attention机制)

【机器学习】【seq2seq模型与attention机制，Beam Search】

机器翻译及相关技术、注意力机制和Seq2seq模型、Transformer

pytorch seq2seq模型中加入teacher_forcing机制

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)