Multi-Instance Multi-Label Learning Networks for Aspect-CategorySentiment Analysis(EMNLP 2020)

目录

标题翻译:用于方面类别情绪分析的多实例多标签学习网络

论文链接:https://aclanthology.org/2020.emnlp-main.287.pdf

摘要

1 引言

2 相关工作

3 模型

3.1 问题公式化

3.2 用于ACSA的多实例多标签学习网络

4 实验

4.1 数据集

4.2 比较方法

4.3 实施细节

4.4 实验结果

4.5  多任务学习的影响

4.6 多层Bi-LSTM深度的影响

4.7 质量分析

5 总结


标题翻译:用于方面类别情感分析的多实例多标签学习网络

论文链接:https://aclanthology.org/2020.emnlp-main.287.pdf

摘要

方面类别情感分析(ACSA)的目的是预测句子对给定方面类别的情绪极性。为了检测句子中对特定方面类别的情感,大多数方法首先生成特定方面类别的句子表示,然后基于表示预测情感极性。这些方法忽略了这样一个事实,即句子中提到的一个方面类别的情绪是表示句子中该方面类别的词语的情绪的集合,从而导致次优性能。在本文中,我们提出了一个方面类别情绪分析的多实例多标签学习网络(AC-MIMLLN),它将句子视为袋,单词为实例,表示方面类别的单词作为方面类别的关键实例。给定一个句子和句子中提到的方面类别,AC-MIMLLN首先预测实例的情绪,然后找到方面类别的关键实例,最后通过聚合关键实例得到句子对方面类别的情绪。在三个公共数据集上的实验结果证明了AC-MIMLLN的有效性。

1 引言

情感分析(Pang和Lee,2008;Liu,2012)最近越来越受到关注。基于方面的情感分析(ABSA)(Pontiki等人,2014 2015 2016)是一项细粒度的情绪分析任务,包括许多子任务,其中两个子任务是检测句子中提到的方面类别的方面类别检测(ACD)和预测与检测到的方面类别有关的情绪极性的方面类别情绪分析(ACSA)。图1显示了一个示例。ACD检测两个方面的类别,环境和食物,ACSA分别预测对它们的负面和正面情绪。在这项工作中,我们将重点放在ACSA上,而ACD作为一项辅助任务,用于查找ACSA句子中指示方面类别的单词。

    由于一个句子通常包含一个或多个方面类别,先前的研究已经开发了各种方法来生成方面类别特定的句子表征,以检测对句子中特定方面类别的情感。举几个例子,基于注意力的模型(Wang等人,2016;Cheng等人,2017;Tay等人,2018;Hu等人,2019)为给定的方面类别分配适当的情感词。Xue和Li(2018)提出基于卷积神经网络和门控机制生成方面类别特定的表示。由于与方面相关的信息可能已经被丢弃,并且与方面无关的信息可能被保留在独立于方面的编码器中,一些现有的方法(Xing等人,2019;Liang等人,2019)利用给定的方面从头开始指导句子编码。最近,基于BERT的模型(Sun等人,2019;Jiang等人,2019)在ACSA任务上获得了很好的性能。然而,这些模型忽略了句子中提到的方面类别的情感是指示该方面类别的词的情感的集合。这导致这些模型的性能不理想。对于图1中的示例,“饮料”和“食物”都表示方面类别食物。对食物的情感是“饮料”和“食物”情感的结合。请注意,指示方面类别的单词不仅包含明确指示方面分类的方面术语,而且还包含隐含指示方面分类(Cheng et al,2017)的其他单词。在图1中,虽然“饮料”和“食物”是明确表示方面类别食物的方面术语,但“大”和“嘈杂”并不是方面术语,只是隐晦的表示方面类别氛围。

    在本文中,我们提出了一种用于方面类别情感分析的多实例多标签学习网络(AC-MIMLLN)。AC-MIMLLN明确地建模了这样一个事实,即句子中提到的方面类别的情感是指示该方面类别的词的情感的集合。具体而言,AC-MIMLLN将句子视为袋,将单词视为实例,将指示方面类别的单词视为方面类别的关键实例(Liu et al,2012)。给定一个袋子和袋子中提到的方面类别,AC-MIMLLN首先预测实例情感,然后找到方面类别的关键实例,最后聚合关键实例的情感,得到方面类别的袋子级情感。

    我们的主要贡献可以总结如下:

1、我们提出了一种用于方面类别情绪分析的多实例多标签学习网络(AC-MIMLLN)。AC-MIMLLN显式地对通过聚合指示方面类别的词的情感来获得句子中提到的方面类别的情感的过程进行建模。

2、据我们所知,这是首次在方面类别情感分析中探索多实例多标签学习。

3、在三个公共数据集上的实验结果证明了AC-MIMLLN的有效性。

2 相关工作

方面类别情绪分析预测关于给定方面类别的情绪极性。已经为这项任务开发了许多方法。Wang等人(2016)提出了一种基于注意力的LSTM网络,当将不同的方面类别作为输入时,该网络可以集中于句子的不同部分。一些新的基于注意力的方法(Cheng et al,2017;Tay et al,2018;Hu et al,2019)为方面类别分配了更合适的情感词,并获得了更好的性能。Ruder等人(2016)用分层双向LSTM对文本中句子的相互依赖性进行了建模。Xue和Li(2018)使用卷积神经网络提取情感特征,并使用门控机制选择性地输出与方面类别相关的特征。Xing等人(2019),Liang等人(2019)和Zhu等人(2019)在上下文建模阶段将方面类别信息纳入句子编码器。Lei等人(2019)提出了一个类人语义认知网络来模拟人类的阅读认知过程。Sun等人(2019)从方面类别构建了一个辅助句子,并将ACSA转换为句子对分类任务。Jiang等人(2019)提出了新的胶囊网络来建模方面类别和上下文之间的复杂关系。胶囊网络取得了最先进的成果。为了避免错误传播,提出了几个联合模型(Li等人,2017;Schmitt等人,2018;Wang等人,2019;Li等人,2019),它们联合执行ACD和ACSA。

    然而,上面提到的所有这些模型都忽略了一个事实,即在一个句子中讨论的方面类别的情感是指示该方面类别的词的情感的集合。

多实例多标签学习(MIMLL)(Zhou和Zhang,2006)处理了训练示例由多个实例描述并与多个类标签相关联的问题。MIMLL因其在复杂对象学习方面的优势而在各种应用中取得了成功,如图像分类(Zhou和Zhang,2006;Chen等人,2013)、文本分类(Zhang和Zhou,2008)、关系提取(Surdeanu等人,2012;Jiang等人,2016)等。在ACSA中,一个句子包含多个单词(实例),并向多个方面类别(标签)表达情感,因此MIMLL适用于ACSA。然而,据我们所知,MIMLL尚未在ACSA中进行探索。

    多实例学习(MIL)(Keeler和Rumelhart,1992)是MIMLL的一个特例,其中由多个实例描述的真实世界对象仅与一个类标签相关联。一些研究(Kotzias等人,2015;Angelidis和Lapata,2018;Pappas和Popescu Belis,2014)将MIL应用于情绪分析。Angelidis和Lapata(2018)提出了一种多实例学习网络(MILNET),其中文本的总体极性是句子或基本话语单元极性的集合,并根据其重要性进行加权。使用基于注意力的极性评分方法来获得片段的重要性。与MILNET类似,我们的模型也使用注意力机制来获得实例的重要性。然而,我们模型中的注意力是从ACD任务中学习的,而MILNET中的注意力则是从情绪分类任务中学习。Pappas和Popescu Belis(2014)将MIL应用于ABSA的另一个子任务。他们提出了一个多实例回归(MIR)模型,将情感得分分配给产品的特定方面。然而,i)他们的任务与我们的不同,ii)他们的模型不是神经网络。

3 模型

在本节中,我们将描述如何将多实例多标签学习框架应用于方面类别情绪分析任务。我们首先介绍了问题的公式,然后描述了我们提出的用于方面类别情感分析的多实例多标签学习网络(AC-MIMLLN)。

3.1 问题公式化

3.2 用于ACSA的多实例多标签学习网络

在本节中,我们介绍了我们提出的用于方面类别情感分析的多实例多标签学习网络(ACMIMLLN),该网络基于一个直观的假设,即句子中提到的方面类别的情感是指示方面类别的词的情感的聚合。在MIMLL中,表示方面类别的词被称为方面类别的关键实例。具体而言,AC-MIMLLN包含两个部分,一个是基于注意力的方面类别检测(ACD)分类器,另一个是方面类别情感分析(ACSA)分类器。给定一个句子,ACD分类器作为辅助任务为每个方面类别生成单词的权重。权重指示单词成为方面类别的关键实例的概率。ACSA分类器首先预测单词的情感,然后通过组合相应的权重和单词的情感来获得每个方面类别的句子级情感。整个模型体系结构如图2所示。虽然ACD部分包含四个模块:嵌入层、LSTM层、注意力层和方面类别预测层,但ACSA部分也由四个组件组成:嵌入层,多层Bi-LSTM,单词情感预测层和方面类型情感预测层。在ACD任务中,所有方面类别共享嵌入层和LSTM层,并具有不同的关注层和方面类别预测层。在ACSA任务中,所有方面类别共享嵌入层、多层Bi-LSTM和单词情感预测层,并具有不同的方面类别情感预测层。

4 实验

4.1 数据集

Rest14:SemEval-2014餐厅评论(Rest14)(Pontiki等人,2014)数据集已被广泛使用。根据之前的工作(Cheng等人,2017;Tay等人,2018;Hu等人,2019),我们去除了具有冲突极性的样本。由于Rest14没有官方开发设置,我们使用Tay等人(2018)提供的拆分。

Rest14 hard:继Xue和Li(2018)之后,我们构建了Rest14 hard。在Rest14 hard中,训练集和开发集与Rest14的相同,而测试集是由Rest14的测试集构建的。Rest14 hard的测试集只包括包含至少两个具有不同情感极性的方面类别的句子。

MAMS-ACSA:由于Rest14 hard的测试集很小,我们也采用多方面多情感数据集进行方面类别情感分析(用MAMS-ACSA表示)。MAMSCSA由Jiang等人(2019)发布,其中所有句子都包含具有不同情感极性的多个方面类别。

    我们选择Rest14 hard和我们称之为hard数据集的MAMS-ACSA,因为Rest14中的大多数句子只包含一个方面或多个具有相同情感极性的方面,这使得ACSA退化为句子级情感分析(Jiang et al,2019)。Rest14 hard和MAMSAACSA可以测量模型在一个句子中检测针对不同方面类别的多个不同情绪极性的能力。这三个数据集的统计数据如表1所示。

4.2 比较方法

我们将AC-MIMLLN与各种基线进行了比较。

(1)非BERT模型:GCAE(Xue和Li,2018)、As-capsule(Wang等人,2019)和CapsNet(Jiang等人,2019年);

(2) 基于BERT(Devlin等人,2019)的模型:BERT(Jiang等人,2019)BERT-pair-QA-B (Sun et al., 2019) and CapsNet-BERT(Jiang et al., 2019)。

我们还提供了AC-MIMLLN的几种变体的比较:

    AC-MIMLLN–w/o mil 为ACAC任务生成特定于方面类别的表示。表示是基于ACD任务提供的权重的单词表示的加权和。

    AC-MIMLLN-Affine 将AC-MIMLLN中的LSTM替换为仿射隐藏层,用于评估AC-MIMLLN中注意力的有效性(Wiegrefe和Pinter,2019)。

    AC-MIMLLN-BERT 用未封顶的基本预训练BERT代替了ACSA的嵌入层和AC-MIMLLN中的多层Bi-LSTM。由于作为上下文信息的句子的整体情感对于推断特定方面类别的情感很重要,ACMIMLLN-BERT还预测令牌“[CLS]”的情感,并为其分配权重。ACMIMLLN-BERT像CapsNet BERT一样,将“[CLS]句子[SEP]方面类别[SEP]”作为输入。    

4.3 实施细节

我们在PyTorch中实现了我们的模型(Paszke等人,2017)。我们使用GloVe(Pennington et al,2014)预训练的300维单词向量来初始化单词嵌入向量。Rest14(-hard)数据集和MAMS-ACSA数据集上的非BERT模型的批次大小分别设置为32和64,基于BERT的模型的批次尺寸设置为16。所有模型都通过Adam优化器进行了优化(Kingma和Ba,2014)。对于非BERT模型和基于BERT的模型,学习率分别设置为0.001和0.00002。我们设置L=3,λ=0:00001和β=1。对于ACSA任务,我们在嵌入和Bi-LSTM层之后应用p=0:5的丢弃。对于AC-MIMLLNBERT,首先训练ACD,然后一起训练ACD和ACSA。对于其他型号,ACD和ACSA是直接联合训练的。我们在训练中提前停下来,耐心是10分。我们运行所有模型5次,并在测试数据集上报告平均结果。

4.4 实验结果

实验结果如表2所示。根据实验结果,我们可以得出以下结论。首先,AC-MIMLLN在Rest14hard数据集和MAMS-ACSA数据集上优于所有非BERT基线,这表明AC-MIMLLN具有更好的能力来检测一个句子中针对不同方面类别的多个不同情绪极性。其次,AC-MIMLLN在Rest14数据集上的精度比AC-MIMLLN-w/o mil高出+1.0%,在Rest14硬数据集上高出+0.8%,在MAMS-ACSA数据集上提高+0.8%,这表明多实例学习(mil)框架更适合ACSA任务。第三,AC-MIMLLN-BERT在所有三个数据集上都超过了所有基于BERT的模型,这表明AC-MIMLLN可以通过为ACSA使用更强大的语句编码器来获得更好的性能。此外,AC-MIMLLN在Rest14上的表现不能超过As-capsule。主要原因是AC-MIMLLN在方面类别misc(轶事/杂项的缩写)上的性能较差(见表3和图4(f))。

4.5  多任务学习的影响

AC-MIMLLN是一个多任务模型,它同时执行ACD和ACSA。多任务学习(Caruana,1997)通过利用任务之间的共性和差异来提高性能。在本节中,我们将探讨AC-MIMLLN在ACSA任务的不同多任务设置中的性能。具体来说,我们探讨了四种设置:单管道、单接头、多管道和多接头。“单一”意味着ACSA任务每次预测句子中一个方面类别的情感,而“多重”意味着ACS任务每次预测语句中所有方面类别的情绪。“管道”表示首先训练ACD,然后训练ACSA,而“接头”表示ACD和ACSA联合训练。多关节是AC-MIMLLN。

实验结果如表5所示。首先,我们观察到,multi-*优于所有同类,这表明同时对句子中的所有方面类别进行建模可以提高ACSA任务的性能。其次,在Rest14硬数据集和MAMS-ACSA数据集上,*-联合超过*-流水线,这表明联合训练ACD和ACSA可以提高在硬数据集上的性能。第三,*-联合在Rest14数据集上的性能比*-管道差。一个可能的原因是Rest14很简单,*-接头的模型容量比*-管道大,并且在Rest14上过满。

4.6 多层Bi-LSTM深度的影响

在本节中,我们探讨了Bi-LSTM层数的影响。实验结果如图3所示,其中还包含AC MIMLLN softmax的结果。AC MIMLLN softmax是通过将softmax激活函数添加到ACMIMLLN的单词情感预测层而获得的。我们观察到,当Bi-LSTM层的数量增加时,AC-MIMLLN通常获得更好的性能,而AC-MIMLLNsoftmax获得更差的结果。这表明,当复杂度增加时,ACMIMLLN softmax很难训练,而AC-MIMLLN可以通过为ACSA使用更强大的语句编码器来获得更好的性能。

4.7 质量分析

在本小节中,我们展示了我们模型的优势,并通过一些典型的例子分析了错误所在,估计了我们模型检测给定方面类别的关键实例(KID)和对给定关键实例的情感进行分类(KISC)的性能。我们在测试中注释了句子中提到的方面类别的重要实例及其情感极性三个数据集的集合。如果单词的权重大于或等于0.1,则模型将该单词判断为关键实例。实验结果如表4所示。 

    案例研究图4显示了四个句子的注意力权重和单词情感预测结果。图4(a)显示,我们的模型准确地找到了方面类别价格的“昂贵”关键实例和食物的“食物”关键实例,并为方面类别和关键实例分配了正确的情感。与之前的模型相比,我们的模型更具可解释性,前者直接为ACSA任务生成方面类别特定的句子表示(例如BERT-pair-QA-B)或基于方面类别相关的情感词(例如As capsule)。

    在图4中,(b)和(c)表明,ACMIMLLN和AC-MIMLLN-Affine都可以正确预测方面类别、食品和服务的情绪。虽然AC MIMLLN Affine准确地找到了服务的关键实例“服务”,但AC-MIMLLN为文本片段中的所有单词“服务太可怕了!”分配权重。这是因为ACMIMLLN中基于LSTM的ACD模型可以根据上下文为ACD和ACSA选择有用的单词,从而获得更好的性能(见表2)。这也可以解释为什么AC-MIMLLN的性能较差在检测到给定方面类别的关键实例时,而不是AC-MIMLLN-Affine(参见表4)。

    错误分析在图4(d)中,对“饮料”和“甜点”(方面类别食品的关键实例)的情绪应该是中性的,然而AC-MIMLLN将负面情绪分配给“饮料”,将正面情绪分配给了“甜点”。图4(e)显示AC-MIMLLN-BERT也将错误的情绪分配给“饮料”和“甜点”。表4显示,尽管AC-MIMLLN-BERT显著提高了KISC的性能,但在Rest14硬数据集和MAMS-ACSA数据集上的结果也不到80%。

    在图4(f)中,AC-MIMLLN错误地预测了方面类别misc的情绪,因为它为misc找到了错误的关键实例。与其他方面类别相比,AC-MIMLLN更难确定哪些单词是misc的关键实例,这导致AC-MIMLLN在方面类别misc上的性能较差。图4(g)显示AC-MIMLLN-BERT正确地预测了方面类别misc的情绪,但也发现了misc的错误关键实例。表4显示KID的所有结果都小于75%。

5 总结

在本文中,我们提出了一种用于方面类别情感分析的多实例多标签学习网络(AC-MIMLLN)。AC-MIMLLN通过聚合指示句子中的体部类别的词的情感来预测句子中提到的体部类型的情感。实验结果证明了AC-MIMLLN的有效性。由于AC-MIMLLN找到给定方面类别的关键实例,并预测关键实例的情感,因此它更具可解释性。在一些句子、短语或从句而不是单词中,表示给定的方面类别,未来的工作可以考虑多粒度实例,包括单词、短语和从句。由于直接找到某些方面类别的关键实例是无效的,我们将尝试首先识别句子中的所有观点片段,然后将这些片段分配给句子中提到的方面类别。

猜你喜欢

转载自blog.csdn.net/Starinfo/article/details/130490339