Hooks in the Headline: Learning to Generate Headlines with Controlled Styles

链接

http://arxiv.org/abs/2004.01980

作者

Di Jin | MIT

主题

标题生成，Stylistic Headline Generation 风格化标题生成

摘要

提出了一个新任务：Stylistic Headline Generation (SHG)
- 三种风格的标题：romantic，humorous，clickbait
- 没有带风格的article-title对，只有标准的标题摘要数据集和mono-style corpus(单一风格的语料)
提出了一个模型：结合了标题摘要任务和重构任务变成一个多任务学习框架
- 还引入了一个新的参数共享方案，进一步将样式从文本中分离出来。
效果很好，超过了以前的摘要模型，还超过了人类水平

引言

利用多任务框架训练标题文章对上的摘要模型和样式语料库上的去噪自动编码器(DAE)
基于transformer，设计style-dependent layer normalization和the style-guided encoder-attention来从文本中解耦风格
这种设计使我们能够使用共享内容来生成与文章更相关的标题，以及通过插入一组特定于样式的参数来控制样式

方法

问题定义

S: 文章-plain标题数据集：A，H；| T：带风格的句子(不必要是标题，可以是book text)
要学的是\(P(T|A)\)，没有从\(P(A,T)\)去采样，所以就是一个完全无监督的方法

Seq2Seq

用了MASS

多任务学习方案

用了多任务学习，还有一个降噪自编码器，输入是乱序+UNK的句子

学P(H|A);
降噪自编码器：在T上面，构造含噪音样本\(\widetilde{t}\)：随机删除或删除某些单词并打乱单词顺序，去学\(P(t|\widetilde{t})\)
多任务损失函数：

参数共享方案

（方法好像和Unsupervised Stylish Image Description Generation via Domain Layer Norm差不多）
目标是P(T|A), 但是without sample from P(T,A), 如果\(E_S\)和\(E_T\)不相关，或者\(G_S\)和\(G_T\)不相关，那就不可能实现目标。必须要多加约束使两个任务相关。最简单的方案是在两个E之间共享参数，在两个G上应用相同的策略。本设计的直观之处在于，通过将模型同时暴露于摘要任务和携带样式的文本重构任务中，模型可以在总结文章的同时获得目标样式的一些感觉。然而，为了鼓励模型更好地分离文本的内容和样式，更明确地学习目标语料库T中包含的样式，我们在两个域之间共享编码器的所有参数。

说白了就是除了independent的层以外，其他结构都共用
受到image style transfer的启发，加了个style layer normalization层（\(\gamma_s\), \(\beta_s\)）就这个参数是独立的，就和stylnet里面的LSTM的\(s\)矩阵一样。
还有一个：摘要归纳和重构任务的注意模式因其内在属性的不同而有所不同。所以提出了一个style encoder-decoder attention