论文名称：Get To The Point：Summarization with Pointer-Generator Networks
模型Pointer-Generator Networks可以简称为PGN

本文是2017年ACL论文。
ArXiv链接：https://arxiv.org/abs/1704.04368

官方GitHub项目：GitHub - abisee/pointer-generator: Code for the ACL 2017 paper “Get To The Point: Summarization with Pointer-Generator Networks”

本文是针对长文本生成式摘要的经典工作，主要是为了解决OOV问题使用了copy机制。

1. 生成式摘要的背景

具体的内容可以看我别的博文，我就不在这里写了。总之，生成式任务的基本范式都是encoder-decoder+attention

常见缺点：

OOV：因为词表不够大所以会出现[UNK]（但是说实话这个在LLM场景下已经不多见了。但是对于基于词的古典工作来说，确实挺严峻的，毕竟词表太大了机器受不住）
重复
语义不连贯、语法逻辑性低、重述准确性不高（胡说八道，这个现在LLM也照样）

本文通过融合抽取式模型，来缓解了这些问题。

2. PGN

在这里插入图片描述

generator：encoder-decoder + attention 直接生成
pointer：从原文中选择

制定阈值，决定用generator还是pointer生成下一个词

解决重复性问题：coverage-mechinism

2.1 generator

在这里插入图片描述
encoder：双向序列模型，如Bi-LSTM / Bi-RNN

decoder：因为解码的过程要确保不能见到将来的信息，所以解码器一般是单向序列模型，如单向的lstm/rnn

注意力机制（attention）：基于当前step的decoder state 以及encoder所有step的 hidden state 计算 attention score，即对encoder的所有step的 hidden state 的关注程度。然后基于 attention score 加权encoder端的 hidden state 形成当前decoder的 context vector。解码步再基于这个 context vector 和当前 decoder state 去生成词。