【论文】A neural attention model for abstractive sentence summarization 阅读笔记

摘要:

这是关注生成式摘要的问题。一般的方法是删除、改写、泛化、重新排序等方式来生成摘要。过去自动生成摘要的方法主要是语言激励限制(linguistically-inspired constraints)和输入文本的句法变换(syntactic transformations of the input text),而本文则是数据驱动的(data-driven)、将神经系统与编码器结合起来的模型。,其中encoder中加入了attention机制。然后decoder中用了beam-search来寻找概率最大的句子。


背景:

目的是给定一个输入序列(x1,x2,,,xm),生成一个浓缩的总结(y1,y2,,,yn)(n<m)。该系统假设输出序列的长度是固定的。目标就是找到,其中s是一种scoring function,评价y的好坏


其中yc是已经生成的摘要中,窗口大小为C的窗口中的部分。特别的,对于给定的输入序列考虑log probability ,有

那么就目标就变成了


模型结构:


(a)中yc->p的部分就是个feed-forward neural network language model(NNLM),其输入是yc(当前产生的上下文,c为窗口大小),然后与词向量矩阵E做映射得到词向量,经过线性变化以及激活函数得到h,经过V的传播,然后加上左边attention-based的encoder,最后一起softmax得到输出。也就是yi+1的概率受到输入和已经输出词的共同影响。具体过程如下:



而其中的enc过程就是右图(b)

bag-of-words:


其中p给予了uniform distribution,赋予了每个单词相同的权重,且不考虑顺序


convolutional encoder:

通过邻近卷积来考虑相邻单词间的互动



attention based encoder:

与上面的bag-of-words相似,只是将uniform distribution替换成了soft alignment P


其中Q是smoothing window , p是attention distribution


生成摘要:

使用beam search来搜索



扩展:

这个模型的结果与人类摘要相比还是有些问题,可以人工添加一些features,修改scoring function直接估计summary的概率:







猜你喜欢

转载自blog.csdn.net/beforeeasy/article/details/80343899