Attention-over-Attention Neural Networks for Reading Comprehension论文笔记

这篇论文是哈工大与科大讯飞联合实验室发表的。被2017ACL收录,之前的《Consensus Attention-based Neural Networks for Chinese Reading Comprehension》这篇文章也是,2016年发表,本篇就是在这篇论文的基础上进行改进的。

1、Motivation

CAS Reader模型[1](Consensus Attention Sum Reader)
在这里插入图片描述
在这里插入图片描述

  • 只考虑了query-document的注意力,然后通过(sum、average)汇总文档中每个单词的分布
  • 引入document-query的注意力,并不是query中每个单词都会被用到,其重要性是不一样的

提出Double-Check

  • 不是选择一个最好的答案,而是挑出一个候选集,然后再从中寻找最合适的答案

因为阅读理解根据数据集不同,所使用的模型也会略有差别,下面就先介绍一下该论文采用的数据集。

2、Dataset

任务:填空式的阅读理解

美国有线新闻网(CNN)和每日邮报网(Daily Mail)中收集了大约一百万条新闻数据作为机器阅读理解语料库。

  • 将一篇文章的主体作为document,新闻的摘要作为query,从query中选择一个entity替换为placeholder,answer即entity(D,Q,A)
  • 对文章进行NER,并将实体词替换成匿名词,以防直接通过query获得答案

在这里插入图片描述

Children’s Book Test

  • 从每一个儿童故事中提取20个连续的句子作为文档(document),第21个句子作为问题(query),并从中剔除一个实体类单词作为答案(answer)
  • 因为介词和动词在标准的LSTM语言模型上效果就已经不错了,所以只考虑命名实体和普通名词
  • 给定10个候选答案,从中选择一个

在这里插入图片描述

3、Model

在这里插入图片描述

介绍一个模型,我们从模型的输入输出、参数和运算关系进行介绍,然后我们在介绍训练过程。

扫描二维码关注公众号,回复: 5407747 查看本文章
  • 输入:
     文档D和查询Q

  • 输出:
     文档中的每一个词,在query和document条件下对应的概率

  • 运算关系:在ppt上画出来了,这里直接附图)

在这里插入图片描述

在这里插入图片描述

其中最重要的贡献就是AoA这一部分,考虑query和document之间的交互信息,从而获得打分S。

  • 训练:
     最大化正确答案的Log似然 在这里插入图片描述

Double check使用N最佳重排序策略

  • Global N-gram LM:这是评分句子的基本指标,旨在评估其流利程度
  • Local N-gram LM:统计信息是从测试文档中获得的。
  • 词类LM:在部分训练数据的文档进行训练,通过使用聚类方法获得该词类。
  • 在验证集上自动优化——K-best MIRA algorithm[2]对上述特征计算权重,然后选择候选集中最好的一个

4、Experiments

  • 参数设置
    Embedding Layer:均匀分布[-0.05, +0.05]
    L2-regularization:0.0001
    Dropout:0.1
    Optimization:Adam initial_lr = 0.001

  • Dimensions of embedding and hidden layer

在这里插入图片描述

  • 总体结果

在这里插入图片描述

  • Re-ranking 的有效性

在这里插入图片描述
增加率:在NE任务上,可以看到Local提升可1.2% ,比CN任务上好;而对于CN任务,G&W分别提高了1.8%&1.4%。这里我的理解是,对于NE任务来说,它更加关注实体信息,而在整个训练集上训练的G&W相比较只在测试集上训练的Local LM捕获到的实体类型的信息显得略欠。对于常识名词来说,从全文获得信息可能更有用处。

5、Discussion

  • Pros
     考虑query和document之间的交互信息
     采用double-check方法模拟了人的阅读过程

  • Cons
     没有涉及到推理,对于现实需要推理的阅读理解存在问题
     可以将得到的s和embedding联合,得到query下文档的重新表达,再通过一个分类器得到答案

[1]Yiming Cui, Ting Liu, Zhipeng Chen, Shijin Wang, and Guoping Hu. 2016. Consensus attentionbased neural networks for chinese reading comprehension.

[2] Colin Cherry and George Foster. 2012. Batch tuning strategies for statistical machine translation.

猜你喜欢

转载自blog.csdn.net/ganxiwu9686/article/details/85319092
今日推荐