「自然语言处理（NLP）论文解读」对话语境重构【滑铁卢大学&&华为】、会话状态跟踪【霍普金斯&&亚马逊】

来源：AINLPer微信公众号 (点击了解一下吧)
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-28

引言

本次有两篇为大家分享，第一篇主要针对汉语对话语境重构问题，作者将其拆分为引用表达检测和共同引用解析两部分，提出了一种端到端的模型结构。第二篇针对任务式对话系统中的会话状态跟踪问题，提出了两种神经网络结构：指针网络结构和转换网络结构。

First Blood

TILE: End-to-End Neural Context Reconstruction in Chinese Dialogue
Contributor : 滑铁卢大学 && 华为
Paper: https://www.aclweb.org/anthology/W19-4108
Code: None

文章摘要

本文主要解决了汉语对话中语境重构的问题，即把代词、零代词等指称短语替换为它们的指称名词，这样在没有上下文的情况，可以直接对句子进行单独的处理。在上下文重建任务可以被分解为引用表达检测和共引用解析的基础上，提出了一种新的端到端结构，分别和共同完成了该任务。该模型的主要特点是它包括基于神经网络的词性和位置编码以及一种新的代词掩模机制。 在构建此类模型时，一个长期存在的问题是缺乏训练数据，为解决这个问题，本文通过扩展以前提出的方法来生成大量实际的训练数据。由于结合了更多的数据和更好的模型，在共同引用解析（coreference resolution ）和端到端上下文重建方面，本文模型可以获得比最先进的方法更高的精度。

本文三大看点

1、将对话中语境重构的问题定义归纳为一个检测问题和一个排序问题，并提出了它与代词、零代词检测等传统任务的区别，提出了候选选择；
2、我们分析了深层神经工作在对话中的应用，包括循序渐进和端到端方法;
3、针对上下文重建任务，提出了一种有效构建大量silver数据的方法。

本文方法介绍

本文方法原理介绍

如上图所示。我们假设一个输入话语q，它的语境是我们试图根据其他语境话语c来重建的。在聊天语境中，c来自于对话中以前的话语。在基准数据集中，我们使用第一句话定位上下文，其中出现了共同引用的内容。我们假设q和c已经被标记化了。我们的方法将上下文重建问题分为两个子任务：检测和解决。
检测是一个序列标记任务，它试图识别需要解析的引用表达式并恢复零代词。在我们的运行示例中，她（她）是这样被识别的，以及一个零代词φ（一个省略的对象）。
决议（resolution）被制定为一项排名任务。对于需要解析的每个“时隙”（上图中的she和φ），我们的模型提供了 $（c，q，m）$ 三元组的排名，其中 $m∈{m_1，…，m_k}$ ，是解析的候选项。候选词是从上下文c中的名词短语中选出的。在推理时，选择得分最高的候选词m作为替代词。如果有多个时隙需要解析，我们的模型将按照从左到右进行解析。模型的最终输出如上图1的最后一行所示。

模型结构介绍

本文模型结构如下图所示：
在结合检测和排序模块的基础上，提出了一种掩模结构，即在联合模型中加入一个掩模句表示层。掩模向量来自检测模块的序列预测，我们将其应用于编码后的句子矩阵中，以突出代词零代词时隙附近的单词，从而得到掩模句子的表示形式，并应用最大池化函数将掩模句子矩阵映射到一个向量中。通过这种方式，我们迫使模型选择提到的候选词，其中这些候选词很可能同时出现在代词或零代词附近。这些词通常是动词（如爱、出版），但很少是介词（如通过）或形容词（如精彩）。基于上述两个模型，我们将学习的句子表示和提及表示相结合，构建了端到端的上下文重构模型，其中检测和解析模型是联合训练的。具体模型架构图如上图所示。

实验结果

在CQA数据集上，端到端的共同引用解析结果 CONLL2012数据集零代词候选排序结果 OntoNote数据集的端到端零代词解析结果

Double Kill

TILE: Improving Long Distance Slot Carryover in Spoken Dialogue Systems.
Contributor : 约翰斯·霍普金斯大学 && 亚马逊
Paper: https://www.aclweb.org/anthology/W19-4111
Code: None

文章摘要

会话状态跟踪是面向任务式对话系统的核心部分，跟踪对话状态的一种方法是时隙转移，关于时隙转移任务，先前的做法主要是为每个时隙做出独立决策的模型，但是其在较长的上下文对话中会导致较差的性能。为此本文提出对这些时隙进行共同建模。本文共提出了两种神经网络结构，一种是基于包含时隙排序信息的指针网络，另一种是基于transform网络，利用自注意机制对时隙相互依赖性进行建模。 在内部对话基准数据集和公共DSTC2数据集上的实验结果，本文模型能够解决较长距离的时隙引用，并能够实现不错的性能。

本文两大看点

1、通过引入时隙相关性建模方法，改进了Naik等人的时隙转移模型体系结构。提出了两种基于指针网络和转换网络的神经网络模型，可以在时隙上进行联合预测。
2、在内部基准和公共数据集上对所提模型进行了详细的分析。实验表明，时隙的上下文编码和模拟时隙相关性对于提高长对话上下文中时隙转移的性能至关重要，具有自注意力的转换架构可提供了最佳总体性能。

模型结构介绍

总体架构

下图是上下文转移模型的一般架构其中，Bi-LSTM用于将对话中的话语编码为固定长度的对话表示，还可以嵌入上下文时隙值。时隙编码器使用时隙键、值和距离为每个候选时隙创建固定长度的时隙嵌入。给定编码的时隙、意图和对话上下文，解码器选择与当前用户请求相关的时隙子集。

时隙编码器

距离可能包含重要信号。这个整数是奇数还是偶数，它提供了关于这个话语是由用户还是系统发出的信息。它越小，时隙就越接近当前的话语，因此隐含地更有可能被延续。基于这些思考，我们将距离编码为一个小向量（xdist，4维），并将其附加到整个时隙编码中： $x =[x_{key} ; x_{val} ; x_{dist}]$

时隙解码器

**指针网络解码器：**采用指针网络的结构（Vinyals等人，2015年）作为一种方法，对要转换时隙进行联合预测。指针网络是seq2seq模型的一个变种，它不是将输入序列转换为另一个输出序列，而是生成一系列输入序列的软指针（注意力向量），因此产生一个可变长度输入序列元素的顺序。模型图如下所示：
**自注意力解码器：**与指针网络类似，自注意力机制也能够模拟对话中所有时隙之间的关系，而不管它们各自的位置如何。为了计算任何给定时隙的表示，自注意力模型将其与对话中的其它时隙进行比较。这些比较的结果是注意力得分，它决定了其他每个时隙对给定时隙的表示应该贡献多少。