Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification 论文阅读

原文链接：https://arxiv.org/pdf/1805.02220.pdf

Abstract

对于真实网络数据来说，机器阅读理解(MRC)任务通常要求机器通过分析搜索引擎检索出来的多个段落来回答问题。与单一段落的机器阅读理解（MRC）相比，多段落更具挑战性，因为我们可能会从不同段落中得到多个复杂的候选答案。为了解决这个问题，我们提出了一个端到端神经模型，它可以让来自不同段落的候选答案根据他们的内容表示来相互验证。具体来说，我们联合训练了三个模块，可以根据三个因素预测最终的答案：答案边界、答案内容和交叉回答验证。实验结果表明，我们的方法在很大程度上优于基线，并在英文MS-MARCO数据集和中文DuReader数据集上达到了最先进的性能，这两种数据集都是为MRC设计的真实数据集。

Introduction

任务介绍和相关工作省略，直接从第二部分第四段落开始:

在这篇文章中，我们建议利用不同段落的答案来验证最终的正确答案，并排除嘈杂的错误答案。我们的假设是，正确的答案可能更频繁地出现在这些文章中，并且通常有一些共同点，而错误的答案通常是不同的。表1中的示例演示了这种现象。我们可以看到，从最后四篇文章中提取的答案都是对问题的有效答案，它们在语义上是相似的，而另外两篇文章的答案是不正确的，没有其他文章的支持信息。由于人们通常比较不同文章中的候选答案来推断最终答案，我们希望MRC模型也能从跨文章的答案验证过程中获得更好的效果。

图1展示了模型的总体框架，其中包含三个模块。首先，我们遵循基于边界的MRC模型(Seo et al., 2016; Wang and Jiang, 2016)
，通过识别答案的起始位置和结束位置，找到每一篇文章的答案候选片段。其次，我们对从这些段落中提取的答案考生的含义进行建模，并使用内容得分从另一个角度来衡量候选答案的优劣。第三，我们通过答案候选表示之间的关系来构建答案验证。我们希望候选答案能够根据语意的相似性，互相收集支持信息，进一步判断每个答案是否正确。

因此，最终答案取决于三个因素:边界、内容和交叉验证。这三个步骤使用不同的模块建模，可以在我们的端到端框架中联合训练。我们对MSMARCO (Nguyen et al.， 2016)和DuReader (He et al.， 2017)数据集进行了广泛的实验。结果表明，我们的回答验证MRC模型在很大程度上优于基线模型，并在两个数据集上都达到了最先进的性能。

Our Approach

图1给出了我们的多通道MRC模型的概述，该模型主要由答案边界预测、答案内容建模和回答验证三个模块组成。首先，我们需要建立问题和段落表示模型。参考Seo et al. (2016)，我们计算每个question-aware表示(Section 2.1)。在此基础上，我们在预测模块(Section 2.2)中使用指针网络(Vinyals et al.， 2015)来预测答案起始位置和结束位置。同时，通过答案内容模型(Section 2.3)，评估每个单词是否应该包含在答案中，从而得到答案表示。接下来，在答题验证模块(Section 2.4)中，每个答案都可以关注其他候选答案以收集有用的信息，我们为每个候选答案计算一个分数，根据验证结果判断是否正确。最终答案不仅取决于边界，还取决于答案的内容及其验证分数(Section 2.5)。

2.1 Question and Passage Modeling

首先，我们介绍问题和段落表示的建模细节

Encoding

我们首先将每个单词映射到向量空间，将word embedding 和 character embedding 相连。然后，我们使用双向LSTM (BiLSTM)对问题Q和文章P进行编码，如下所示：

其中