机器阅读概念

所谓机器阅读理解任务，指的就是给一段context描述，然后对应的给一个query，然后机器通过阅读context后，给出对应query的答案。这里做了一个假设，就是query的答案必须是能够在context原文中找到的一段话（也可以理解为连续的几个单词），也就是说最终模型预测的目标是输出两个下标，分别对应于query回答在context的开始位置和结束位置。最后模型的损失函数为多分类的交叉熵softmax（因为从本质上来讲该问题等效为一个多分类问题，问题的类别数等于context中单词的数量，也就是每一个单词都有可能作为answer的开始）。

论文集合

论文名称：《End-To-End Memory Networks》

论文地址：https://arxiv.org/pdf/1503.08895.pdf

论文代码：https://github.com/fchollet/keras/blob/master/examples/ba bi_memnn.py

针对Memory Networks无法端到端训练的弊端，提出了End-To-End Memory Networks，可以端到端训练，减少训练监督。增加了注意力机制，并且使用了RNNsearch中的multiple computational steps (hops)。hops的作用是增强模型的推理能力。

论文名称：《ReasoNet: Learning to Stop Reading in Machine Comprehension》

论文地址：https://arxiv.org/pdf/1609.05284.pdf

与在推理期间使用固定hops的先前方法不同，ReasoNets引入终止状态以放宽对推理深度的这种约束。通过使用强化学习，ReasoNets可以在消化中间结果后动态确定是继续理解过程，还是在得出现有信息足以产生答案时终止阅读。 ReasoNets在机器理解数据集中实现卓越性能。

论文名称：《R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS》

论文地址：https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf

论文代码：https://github.com/unilight/R-NET-in-Tensorflow

首先将问题和短文与gated attention-based recurrent networks基于门控注意力的递归网络进行匹配，得到问题感知的短文表示。然后提出了一种self-matching attention mechanism自匹配的注意机制，通过对文章本身进行匹配来优化表现形式，从而有效地对整个文章的信息进行编码。最后，使用pointer networks指针网络来定位文章中答案的位置。

论文名称：《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》

论文地址：https://arxiv.org/pdf/1611.01603.pdf

BI-DIRECTIONAL ATTENTION FLOW(BIDAF)网络是一个多阶段的分层过程，它表示不同粒度的上下文，并使用双向注意流机制来获得查询感知的上下文表示，而不需要进行早期总结。BIDAF包括字符级，字级和上下文嵌入，并使用双向注意流来获得查询感知上下文表示。我们的注意机制对以前流行的注意范例提供了以下改进。

首先，我们的注意层不用于将上下文段落概括为固定大小的向量。相反，计算每个时间步的注意力，并且允许每个时间步的有人参与向量以及来自先前层的表示流到下一个建模层。这减少了早期摘要引起的信息丢失。

其次，我们使用memory-less无记忆的注意机制。也就是说，虽然我们像Bahdanau等人那样通过时间迭代地计算注意力。（2015），每个时间步的注意力仅是当前时间步的查询和上下文段落的函数，并不直接依赖于前一时间步的注意力。我们假设这种简化会导致注意层和建模层之间的分工。它迫使关注层专注于学习查询和上下文之间的关注，并使建模层专注于学习查询和上下文之间的交互查询感知上下文表示(注意层的输出)。它还允许在每个时间步骤中的注意力不受之前时间步骤中的错误出席的影响。我们的实验表明，与动态注意力相比，无记忆注意力具有明显的优势。

第三，我们在两个方向上都使用了注意力机制，查询到上下文和上下文到查询，它们相互提供互补的信息。

论文名称：《FusionNet: Fusing via Fully-Aware Attention with Application to Machine Comprehension》

论文地址：https://arxiv.org/pdf/1711.07341.pdf

本文介绍了一种新的神经结构FusionNet，它从三个方面扩展了现有的注意方法。首先，提出了一个新颖的“history of word”概念，将注意力信息从最低的词层面嵌入到最高的语义层面表征。其次，介绍了一种改进的注意力评分功能，更好地利用了“history of word”的概念。第三，提出了一种全意识的多层次注意机制，在文本(如问题)中获取完整信息，并在对应文本中加以利用。

[深度学习]Machine Comprehension机器阅读中Attention-based Model注意力机制论文集合

机器阅读概念

论文集合

网络结构比较

猜你喜欢