原文链接：https://arxiv.org/pdf/2101.00816.pdf

标题翻译：基于方面的情感分析的联合训练Dual-MRC框架

原文链接：https://arxiv.org/pdf/2101.00816.pdf

摘要

基于方面的情感分析包括三个基本子任务:方面词提取、观点词提取和方面级情感分类。早期的工作只专注于单独解决这些子任务中的一个。最近的一些工作集中在解决两个子任务的组合，例如，提取方面项和情感极性，或者明智地提取方面项和意见项。最近，人们提出了三元提取任务，即从句子中提取三元组(方面项、观点项、情感极性)。然而，以往的方法无法在统一的端到端框架中解决所有子任务。在本文中，我们提出了一个完整的ABSA解决方案。我们构造了两个机器阅读理解(MRC)问题，并通过联合训练两个参数共享的BERT-MRC模型来解决所有子任务。我们在这些子任务上进行了实验，在几个基准数据集上的结果证明了我们提出的框架的有效性，它大大优于现有的最先进的方法。

引言

基于方面的情感分析(ABSA)是自然语言处理中的一个重要研究领域。考虑图1中的例子，在句子“The ambience was nice, but the service was not so great”方面术语(AT)是“ambience/service”，意见术语(OT)是“nice/not so great”。传统的情感分类有三个基本子任务:方面词提取、意见词提取和方面级情感分类。近年来的研究工作旨在将两个子任务相结合，并取得了很大的进展。例如，它们提取(AT, OT)对，或提取具有相应情感极性(SP)的AT。最近，一些旨在用统一的框架在ABSA中完成所有相关子任务的工作引起了人们越来越多的兴趣。

为方便起见，我们假设ABSA子任务的缩写如下，如图1所示：

我们主要关注三元提取任务（a，o，s），因为它是所有ABSA子任务中最难的。彭等人(2020)提出了提取(AT, OT, SP)三元组的统一框架。然而，由于它的框架有两个阶段，并且必须训练三个独立的模型，因此计算效率很低。

在本文中，我们提出了一个联合训练框架，在一个模型中处理所有ABSA子任务(如图1所示)。我们使用BERT (Devlin et al 2019)作为骨干网络，并使用基于跨度的模型来检测句子中AT/OT的开始/结束位置。基于跨度的方法在提取任务方面优于传统的基于序列标记的方法(Hu et al 2019)。

遵循其思想，采用了一种基于非最大抑制算法(NMS)的启发式多跨译码算法(Rosenfeld and Thurston 1971)。

我们将原来的三重抽取任务转化为两个机器阅读理解问题。如果使用预训练的BERT模型，则已知MRC方法是有效的。原因可能是BERT通常用下一句预测进行预训练，以捕获成对的句子关系。从理论上讲，三元提取任务可以分解为AE、AOE和SC子任务。因此，我们使用左侧MRC处理AE，使用右侧MRC处理AOE和SC。我们在本文中的主要贡献如下:

•我们展示了三重提取任务可以与三个目标联合训练。

•我们提出了一个dual-MRC框架，可以处理ABSA中的所有子任务(如表1所示)。

•我们在这些任务上进行实验，比较我们提出的框架。实验结果表明，该方法优于现有方法。

提出的框架

三元提取联合训练

作者主要为了证明三元任务可以转换为三个子任务的联合训练

在本节中，我们将重点关注三元提取任务，其他子任务可以视为它的特殊情况。给定一个最大长度为n的句子xj。令Tj = {(a, o, s)}是给定的输入句子带注释的三元组的输出，其中s ∈ {Positive, Netural, Negative}, (a, o, s)指的是（aspect term, opinion term, sentiment polarity）。对于训练集D{(xj, Tj)}, 我们想要最大化概率：

定义，

考虑xj的对数似然，

最后一个方程成立，因为在给出句子xj和方面项a的情况下，意见项o和情感极性s是条件独立的。

我们将上面的方程对xj∈D求和，并对两边归一化，然后我们得到下面形式的对数似然，

α, β, γ ∈ [0, 1]。第一项重复，以便与其他两项匹配。由(5)可知，三元提取任务Triple可以转化为AE、SC和AOE的联合训练。

Dual-MRC框架

现在我们要提出我们的联合训练dual-MRC框架。如图2所示，我们的模型由两部分组成。这两个部分都使用BERT (Devlin et al 2019)作为骨干模型来编码上下文信息。回想一下BERT是一个基于多层双向Transformer的语言表示模型。设n表示句子长度，d表示隐藏维数。假设所有标记的最后一层输出为 $h^{l,s}, h^{r,s}, h^{l,e}, h^{r,e} \in R^{(n+2)\times d}$ 用于提取，其中l/R表示左/右部分，s/e表示开始/结束令牌。假设BERT在[CLS]令牌处的输出是 $h_{cls}^{r} \in R^{(n+2)\times d}$ ，用于分类。

左边部分的目标是从给定的文本中提取所有at，即任务AE。正如我们前面讨论的，基于span的方法已被证明对提取任务是有效的。我们遵循(Hu et al 2019)中的思想，对于左侧部分，我们获得了开始/结束位置的对数和概率。

MRC数据集转换

如图3所示，在将原始三重注释输入联合训练dual-MRC模型之前，必须对其进行转换。两个MRC都使用输入句子作为上下文。左边的MRC是用查询构造的。

然后左边的MRC的答案是从文本中得到所有的ATs。给定一个AT，右边MRC是由查询构造的。

右边MRC的输出是所有OT和相对于给定AT的情绪极性。一个重要的问题是，右侧MRC的数量等于AT的数量，因此，左侧MRC重复的次数是相同的。

推理过程

对于Triple，我们想指出训练过程和推理过程之间的一些区别。在训练过程中，已知所有AT的ground truth，可以根据这些AT构建正确的MRC。因此，训练过程是端到端的。然而，在推理过程中，AT是左MRC的输出。

因此，我们在一个pipeline中推断两个mrc，如算法1所示。

其他任务的推理过程类似。任务AE使用来自左侧MRC的span输出。AOE和SC使用来自右侧MRC的跨度和分类输出。AESC和Pair使用它们的组合。详情请参阅表1。

实验

数据集

原始数据集来自Semeval Challenges(Pontiki et al 2014, 2015, 2016)，其中标记了AT和相应的情绪极性。我们在三个公共数据集上评估我们的框架。

第一个数据集来自(Wang et al 2017)，其中意见术语的标签是注释的。所有数据集共享固定的训练/测试分割。第二个数据集来自(Fan et al 2019)，其中标记(AT, OT)对。第三个数据集来自(Peng et al 2020)，其中标记了(AT, OT, SP)三元组。对少部分ATs和OTs重叠的样本进行了校正。另外，从训练集中随机选择20%的数据作为验证集。有关数据集的详细统计，请参阅原始论文。

子任务和基线

在ABSA中有三条研究线，每条研究线都有不同的数据标注、ABSA子任务、基线和实验设置。为了公平地将我们提出的框架与以前的基线进行比较，我们应该为每条研究线明确地指定它们。

使用(Wang et al 2017)的数据集，对AE、OE、SC和AESC进行了以下基线评估：

SPAN-BERT（Hu et al 2019）是AESC的一种管道方法，将BERT作为骨干网络。AE使用跨度边界检测模块，然后使用基于SC跨度表示的极性分类器。

IMN-BERT（He等人，2019）是以BERT为骨干的IMN（He et al，2019）的扩展。IMN是一种涉及AE和SC联合训练的多任务学习方法。在IMN中引入了一种消息传递架构，以提高AESC的性能。

RACL-BERT（Chen和Qian 2020）是一种基于BERT编码器的堆叠多层网络，是AESC的最先进方法。RACL中使用关系传播机制来捕获子任务（即AE、OE、SC）之间的交互。

使用（Fan et al 2019）的数据集，对AOE的以下基线进行了评估：

IOG（Fan et al 2019）是第一个提出的解决AOE的模型，它采用六种不同的BLSTM来提取预先给出的方面的相应意见项。

LOTN（Wu et al 2020）是AOE的最新方法，它从外部情绪分类数据集中转移潜在的意见信息，以提高性能。

使用（Peng等人2020）的数据集，对AESC、Pair和Triple的以下基线进行了评估：

RINANTE（Dai和Song 2019）是一种利用句子中单词的依赖关系的AE和OE的弱监督协同提取方法。

CMLA (Wang et al. 2017) is a multilayer attention network for AE and OE, where each layer consists of a couple of attentions with tensor operators.

Li-unified-R（Peng et al 2020）是Li-unified（Li et al 2019a）的一种改良变体，最初是通过统一标签方案用于AESC的。Li-unified-R仅将原始OE模块用于意见术语提取。

Peng-two-stage（Peng et al 2020）是一个两阶段框架，具有ABSA中不同子任务的单独模型，是Triple的最先进方法。

模型设置

根据基线，我们使用BERT-Base-Uncased或BERT-Large Unbased作为我们提出的模型的骨干模型。有关BERT的模型详细信息，请参阅（Devlin等人，2019）。我们使用学习率为2e−5的Adam优化器，并在前10%的步骤中进行热身，以训练3个时期。批量大小为12，并且使用0:1的丢弃概率。超参数α; β; γ;方程14中最终联合训练损失的γ对结果不敏感，因此我们在实验中将其固定为1/3。启发式多跨度解码算法（Hu et al 2019）的logit阈值对结果非常敏感，并且在每个数据集上手动调整，其他超参数保持默认。所有实验都是在一个Tesla-V100 GPU上进行的。

评估指标

对于我们实验中的所有任务，我们使用精度（P）、召回率（R）和F1分数作为评估指标，因为如果预测项与黄金项完全匹配，那么它是正确的。

主要结果

如前所述，有三条研究线，具有不同的数据集、ABSA子任务、基线和实验设置。对于每条研究线，我们保持相同的数据集和实验设置，并将我们提出的双MRC框架与基线进行比较，并在表2、表3和表4中给出我们的结果。

首先，我们在（Wang et al 2017）的数据集上比较了我们提出的AE、SC和AESC方法。OE不适用于我们提出的框架7。由于（AT，OT）的成对关系在该数据集中没有注释，因此我们仅使用模型的右侧部分进行分类。从训练集中随机选择20%的数据作为验证集。结果是随机初始化5次运行的平均分数，如表2所示。我们采用BERT Large Unbased作为我们的主干模型，因为基线也使用它。所有的基线都是基于BERT的，与之相比，我们的结果达到了第一或第二位。回想一下，我们的方法受到SPAN-BERT的启发，这是提取任务的一个强大基线。我们在AE中的结果接近SPAN-BERT。然而，在MRC的帮助下，我们在SC和AESC中取得了更好的结果。

其次，我们在（Fan et al 2019）的数据集上比较了我们提出的AOE方法，其中对成对（AT，OT）关系进行了注释。这个任务可以看作是我们提出的完整模型的一个微不足道的例子。结果如表3所示。BERT Base Unbased被用作我们的主干模型。

尽管16res的结果比LOTN低一点，但我们的大多数结果都显著优于之前的基线。这表明我们的模型在匹配AT和OT方面具有优势。特别是，我们的模型在lap14上的性能比基线要好得多。这可能是由于笔记本电脑（14lap）评论和餐厅评论（14res/15res/16res）之间的域差异。

第三，我们在来自（Peng et al 2020）的数据集上比较了我们提出的AESC、Pair和Triple方法。我们提出的框架的完整模型已经实现。结果如表4所示。BERT Base Unbased被用作我们的主干模型。我们的结果显著优于基线，尤其是在提取成对（AT，OT）关系的精度分数方面。请注意，Li unifiedR和Peng两个阶段都使用统一的标记模式。对于提取任务，基于跨度的方法在提取术语方面优于统一标记模式，这可能是因为确定开始/结束位置比确定每个标记的标签更容易。更准确地说，对于统一标记模式，每个令牌至少有7个可能的选择，例如{B-POS、B-NEU、B-NEG、I-POS、I-NEU、I-NEG、O}，因此总共有 $7^{n}$ 个选择。对于基于跨度的方法，每个令牌至少有4个可能的选择，例如{IS-START、NOT-START、IS-END、NOT-END}，然后总共有 $4^{n} (\leqslant 7^{n})$ 个选择。我们提出的方法结合了MRC和基于跨度的提取，并且对Pair和Triple有了巨大的改进。

联合学习分析

我们对联合学习的有效性进行了一些分析。来自（Peng et al2020）如表6所示。总体而言，从实验结果来看，增加一个或两个学习目标对F-1分数没有太大影响。然而，联合学习更有效，它可以用一个单一的模型处理更多的任务。

对于AESC任务，我们比较了有或没有来自模型右侧部分的基于跨度的提取输出的结果。通过联合学习提取给定方面的意见项，方面级情感分类的结果得到了一点改进。这是有意义的，因为提取的OT对于识别给定AT的情绪极性是有用的。

对于任务对，我们比较了有或没有来自模型右侧部分的分类输出的结果。当添加情绪分类目标时，OT提取的F-1分数会略有下降。原因可能是情绪极性可能指向一句话中的多个OT，其中一些OT没有与给定的AT配对。

案例分析

为了验证我们模型的有效性，我们基于基线中完全相同的三个例子（Peng et al 2020）比较了我们的方法，因为它的源代码不是公开的。结果如表5所示。

第一个例子表明，我们基于MRC的方法在匹配AT和OT方面表现更好。Peng的方法错误地匹配了“tuna”和“too dry”，而我们的方法将匹配问题转化为MRC问题。第二个例子表明，基于跨度的提取方法能够很好地检测实体的边界。我们的方法成功地检测到“log on”，而Peng的方法错误地检测到了“log”。此外，情绪分类结果表明，我们基于MRC的方法在SC方面也很好。

在图4中，我们在输入文本和查询之间绘制了来自微调模型的注意力矩阵。正如我们所看到的，“opinion term”与“fresh”的关注度得分很高，“sentiment”与“food/fresh/hot”的关注率得分很高。因此，查询可以通过自我关注来捕获任务的重要信息。

总结

在本文中，我们提出了一个联合训练双MRC框架来一次性处理基于方面的情绪分析（ABSA）的所有ABSA子任务，其中左MRC用于方面术语提取，右MRC用于面向方面的意见术语提取和情绪分类。将原始数据集转换并馈送到双MRC中以进行联合训练。对三条研究线进行了实验，并与不同的ABSA子任务和基线进行了比较。实验结果表明，我们提出的框架优于所有比较的基线。

A Joint Training Dual-MRC Framework for Aspect Based Sentiment Analysis（AAAI 2021）

标题翻译：基于方面的情感分析的联合训练Dual-MRC框架

原文链接：https://arxiv.org/pdf/2101.00816.pdf

摘要

引言

相关工作

提出的框架

三元提取联合训练

Dual-MRC框架

MRC数据集转换

推理过程

实验

数据集

子任务和基线

模型设置

评估指标

主要结果

联合学习分析

案例分析

总结

猜你喜欢