Saliency as Evidence: Event Detection with Trigger Saliency Attribution 论文解读

Saliency as Evidence: Event Detection with Trigger Saliency Attribution

论文:https://aclanthology.org/2022.acl-long.313.pdf

代码:https://github.com/jianliu-ml/SaliencyED

期刊/会议:ACL 2022

摘要

事件检测(ED)是事件抽取的关键子任务,它试图识别文本中特定类型的事件触发词。尽管ED取得了重大进展,但现有方法通常遵循“一个模型适合所有类型”的方法,这种方法认为事件类型之间没有差异,通常会导致相当倾斜的性能。找出性能倾斜的原因对ED模型的鲁棒性至关重要,但迄今为止对这一问题的探索很少。这项研究深入研究了这个问题,并提出了一个新概念,称为触发词显著性归因(trigger salience attribute),它可以明确量化事件的潜在模式。在此基础上,我们开发了一种新的ED训练机制,可以区分触发词依赖和上下文依赖类型,并在两个基准测试中取得了良好的性能。最后,通过强调触发词依赖和上下文依赖类型的许多不同特征,我们的工作可能会促进对这个问题的更多研究。

1、简介

之前的ED方法通常采用“一个模型适合所有类型”的方法,认为事件类型之间没有区别,并使用单一模型来解决所有事件(Ji and Grishman, 2008; Li et al, 2013; Chen et al, 2015; Lin et al, 2020)。然而,这种方法在不同类型上产生了相当倾斜的性能。以ACE基准为例,我们注意到最先进的ED模型(Wadden et al, 2019)在类型DIVORCE的F1中可以达到90%,但对于类型START-POSITION只有50%,更令人惊讶的是,DIVORCE的训练集比START-POSITION的训练集小8倍。找出倾斜性能潜在的原因对ED模型的鲁棒性至关重要;然而,这一问题在目前的研究中还不够充分。

在本研究中,我们重新审视了上述问题,并首次将偏斜的表现归因于事件的上下文模式(contextual patterns of events)。让我们考虑图1中所示的DIVORCESTART-POSITION的两个典型实例。直观地说,它们展示了不同的模式:DIVORCE事件更依赖触发词,触发词(即“离婚(divorced)”明确指示事件的发生;相比之下,START-POSITION事件更依赖于上下文——事件语义主要由上下文而不是触发词“成为(become)”表示,后者只是一个简单的动词。我们假设ED模型在依赖上下文的类型上表现不佳,因为捕获上下文语义具有挑战性(Lu et al, 2019; Liu et al, 2020b)。根据上述直觉,产生了两个问题:(i)我们能否定量地估计一个事件的模式?(ii))如何通过描述这些模式来增强ED模型的鲁棒性?

为了解决第一个问题,我们引入了一个名为触发词显著性归因的新概念,它可以明确量化事件的上下文模式。图2说明了关键思想:为了确定事件在多大程度上依赖于触发词或依赖于上下文,我们测量触发词对整体事件语义表达的贡献。具体来说,我们首先为每个句子分配一个表示整体事件语义的全局事件标签。然后,受到特征归因方法的启发(Simonyan et al, 2014; Sundararajan et al, 2017),我们将每个单词视为一个特征,并计算其贡献(即显著性值)来预测全局事件标签。最后,通过检查ground-truth触发词的显著性值,我们可以判断一个事件在多大程度上依赖触发词或上下文:例如,较高的值表明触发词对事件的贡献更大,这意味着事件更依赖触发词。

为了回答第二个问题,我们开发了一种新的基于触发词显著性归因的训练机制,将显著性作为证据来增强学习。我们的方法简单而直接——我们没有使用单一模型来检测所有事件类型,而是将具有相似模式的事件类型分组在一起(通过触发词显著性归因进行评估),并为每个组开发单独的模型。这种策略使不同的模型能够捕获不同的模式——例如,上下文依赖类型的模型可以专注于挖掘上下文信息进行学习。为了进一步促进学习,我们还提出了两种显著性探索策略来增强上述框架,可以明确地将显著性信息集成到学习中,并产生更好的表现,特别是对于上下文依赖类型(§6.2)。

为了验证我们方法的有效性,我们对两个ED基准(即ACE 2005 (LDC, 2005)和MAVEN (Wang et al, 2020))进行了广泛的实验。结果表明:(i)我们的触发词显著性归因方法可以捕捉到潜在的模式,并很好地解释了倾斜的表现,在ACE 2005和MAVEN上,每个类型F1的Spearman相关系数分别为0.72和0.61;(ii)我们基于显著性的新训练机制在两个基准上的结果有所改善。例如,在ACE 2005上,与联合训练不同事件类型的方法相比,它在F1中产生了2%的绝对增益。最后,在消融研究中,我们比较并强调了触发依赖和上下文依赖事件类型的许多重要特征(例如,语言和词汇模式);我们的工作可能会激发未来对它们模式的研究。

总之,我们的贡献有三个方面:

  • 我们分析了一个ED模型的倾斜性能的起源,并提出了一个称为触发词显著性归因的新概念,它可以评估事件的潜在模式。作为一项开创性的研究,我们的发现提出了一种可能性,即传统的“一种模型适合所有类型”范式可能需要改变。
  • 我们提出了一种新的基于触发词显著性归因的ED训练机制,在两个基准上取得了有前景的结果,特别是在处理上下文依赖的事件类型时。
  • 我们强调了触发词依赖和上下文依赖事件类型的几种不同模式,我们的发现可能会刺激未来对它们差异的研究。

2、背景和相关工作

事件检测:一般采样预训练语言模型微调的方式,可以融入句法信息、文档及线索、外部监督信号去加速学习。然而,大多数方法不区分事件类型,只训练一个模型来识别所有事件类型,导致在不同事件类型上的性能相当不均衡。两项重大工作(Lu et al, 2019; Liu et al, 2020b)观察到在上下文依赖文本上的表现相对较差,并提出了更好的上下文探索策略来改善训练。尽管如此,他们的位置是提高性能,而不是调查根本原因。另一方面,我们的方法以全新的视角看待问题,旨在定义学习事件的基本模式。

特征归因:特征归因(FA)的目标是评估输入特征对模型预测的重要性,这引发了人们对解释模型决策的大量兴趣(Simonyan et al, 2014; Sundararajan et al, 2017)。形式上,假设我们有一个输入向量 x = ( x 1 , x 2 , … , x n ) ∈ R n x =(x_1, x_2,\ldots, x_n)∈\mathbb{R}^n x=(x1,x2,,xn)Rn和表示模型的函数 F : R n → [ 0 , 1 ] F: \mathbb{R}^n→[0,1] F:Rn[0,1] x x x的属性值,相对于输出 F ( x ) F(x) F(x),定义为向量 A F ( x ) = ( a 1 , a 2 , … , a n ) ∈ R n A_{F}(x) = (a_1, a_2,\ldots, a_n)∈\mathbb{R}^n AF(x)=(a1,a2,,an)Rn,其中 a i a_i ai度量 x i x_i xi F ( x ) F(x) F(x)的贡献。现有的FA方法被归类为基于梯度的方法,该方法将输出对输入的梯度作为归因值(Simonyan et al, 2014;Springenberg et al,2015),以及基于共指的方法,该方法将模型输出与某些“共指”输出之间的差异,就输入与某些“共指”输入之间的差异而言,作为归因值(Ribeiro et al, 2016; Sundararajan et al, 2017)。FA已被用于图像分类(Simonyan et al,2014)、机器翻译(Ding et al,2017)、文本分类(Chen et al,2018)和其他应用中的模型预测(Bastings和Filippova, 2020)。据我们所知,这是第一个将FA引入ED来量化潜在事件模式的工作。

集成梯度:集成梯度(Sundararajan et al, 2017)是一种特定的(基于共指的)FA方法,将特征归因值视为模型输入 x x x和共指输入 x ′ x' x之间的累积梯度,这表示缺乏特征。特别地, x i x_i xi(即 x x x的第 i i i维)关于输出 F ( x ) F(x) F(x)的属性值定义为:
a i = ( x i − x i ′ ) × ∫ α = 0 1 ∂ F ( x ′ + α × ( x − x ′ ) ) ∂ x i d α a_i=(x_i -x_i') \times \int_{\alpha=0}^{1} \frac{\partial F(x'+\alpha \times (x-x'))}{\partial x_i} d \alpha ai=(xixi)×α=01xiF(x+α×(xx))dα
其中 ∂ F ( x ) ∂ x 1 \frac{\partial F(x)}{\partial x_1} x1F(x)表示 F ( x ) F(x) F(x) x i x_i xi的梯度。在我们的方法中,我们更喜欢集成梯度去其他FA方法,由于其计算效率和在解决广泛的基于文本的任务的有效性(Sundararajan et al, 2017; Liu and Avci, 2019; Bastings and Filippova, 2020)。

3、触发词显著性归因

算法1概述了我们的触发词显著性归因方法,该方法包括三个主要步骤:(i)句子级别的事件分类,(ii)单词级别的显著性估计,(iii)类型级别的显著性估计。设 s = [ w 1 , w 2 , … , w N ] s = [w_1, w_2,\ldots,w_N] s=[w1,w2,,wN] N N N个单词的句子,ED任务对应预测一个事件标签序列 Y s = [ y 1 , y 2 , … , y N ] Y_s = [y_1, y_2,\ldots,y_N] Ys=[y1,y2,,yN],其中 y i ∈ T ∪ { O } y_i∈\mathcal{T}∪\{O\} yiT{ O}表示 w i w_i wi的事件标签, T \mathcal{T} T是包含所有预定义事件类型的集合, O O O为“null类型”,表示无触发词。

句子级事件分类:我们首先给 s s s一个句子级的事件标签 G s G_s Gs,它代表整个事件语义。假设标签为 G s = [ g 1 , g 2 , … , g ∣ T ∣ ] ∈ R ∣ T ∣ G_s = [g_1, g_2,\ldots, g_{|T|}]∈\mathbb{R}^{|T|} Gs=[g1,g2,,gT]RT,其中 g i ∈ { 0 , 1 } g_i∈\{0,1\} gi{ 0,1}表示第 i i i个事件类型的触发词是否包含在 s ( g i = 1 ) s (g_i=1) s(gi=1) ( g i = 0 ) (g_i=0) (gi=0)。接着,我们构建了一个句子级事件分类器,目标是学习从 s s s G s G_s Gs的映射。特别是,我们设计了一个基于BERT的句子分类器(Devlin et al, 2019),并采用多标签二元交叉熵损失进行优化:
L ( G s , X s ) = − 1 ∣ T ∣ ∑ i = 1 ∣ T ∣ g i ⋅ log ⁡ ( o i s ) + ( 1 − g i ) ⋅ log ⁡ ( 1 − o i s ) L(G_s,X_s)=-\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} g_i \cdot \log (o_i^s) +(1-g_i) \cdot \log (1-o_i^s) L(Gs,Xs)=T1i=1Tgilog(ois)+(1gi)log(1ois)
其中 X s X_s Xs s s s在BERT中的输入嵌入, o s ∈ R ∣ T ∣ o^s∈\mathbb{R}^{|\mathcal{T}|} osRT表示分类器计算的logits向量, o i s o^s_i ois表示 o s o^s os的第 i i i个元素。

单词级别的显著性估计:基于句子级分类器,我们接下来使用集成梯度(Sundararajan et al, 2017)来计算每个单词对预测的贡献(即显著性值)。我们利用损失函数作为期望模型(Wallace et al, 2019),计算 w i w_i wi的显著性,更准确地计算其BERT表示 x i ∈ X s x_i∈X_s xiXs,对于损失:
α w i = ( x i − x i ′ ) × ∫ α = 0 1 ∂ L ( G s ; X ′ + α × ( X s − X ′ ) ) ∂ x i d α \alpha_{w_i}=(x_i-x_i') \times \int_{\alpha=0}^{1} \frac{\partial L(G_s;X'+\alpha \times (X_s-X'))}{\partial x_i} d \alpha αwi=(xixi)×α=01xiL(Gs;X+α×(XsX))dα
其中 X ′ X' X是一个全零向量序列(作为共指输入), x i ′ x_i' xi表示 X ′ X' X中的第 i i i个元素。然后,我们将 α w i α_{w_i} αwi归一化为标量值 α w i α_{w_i} αwi,并进行逐句归一化:
α w i = e ∥ α w i ∥ 2 / ∑ n = 1 N e ∥ α w n ∥ 2 \alpha_{w_i}=e^{\parallel \alpha_{w_i} \parallel_2}/\sum_{n=1}^{N}e^{\parallel \alpha_{w_n} \parallel_2} αwi=eαwi2/n=1Neαwn2
其中 ∥ ∥ \parallel \parallel ∥∥表示L2范数。实际上,我们可能不关心一个词对一般事件语义 G s G_s Gs的显著性,而是关注一个特定的事件类型 T ∈ T T∈\mathcal{T} TT。为此,我们将 G s G_s Gs替换为式(3)中 T T T的one-hot表示进行计算。最后,我们用 α w i ( T ) α^{(T)}_{w_i} αwi(T)表示 w i w_i wi相对于事件类型 T T T的词级显著性,如果句子没有描述任何 T T T类型的事件,我们假设 α w i ( T ) = 0 α^{(T)}_{w_i}=0 αwi(T)=0

类型水平的显著性估计:基于词级显著性,我们测量类型级触发显著性值(关于事件类型 T T T)为:
S L ( T ) = ∑ ( s , Y s ) ∑ w ∈ { w i ∣ y i = T } α w ( T ) # of training examples of type  T SL(T)=\frac{\sum_{(s,Y_s)}\sum_{w \in \{ w_i|y_i = T \}} \alpha_w^{(T)}}{\text{\# of training examples of type } T} SL(T)=# of training examples of type T(s,Ys)w{ wiyi=T}αw(T)
其中 ( s , Y s ) (s, Y_s) (s,Ys)表示每个训练实例; { w i ∣ y i = T } \{w_i|y_i = T\} { wiyi=T}是一个包含 s s s中所有类型 T T T的触发词的集合。类型级别显著值 S L ( T ) SL(T) SL(T)表明事件类型T是如何依赖触发词或上下文的,并且它已被证明与每种类型模型的性能密切相关(§6.1)。

4、显著性增强ED

基于触发词显著性归因,我们设计了一种新的ED训练范式,可以区分具有相似模式的事件类型进行学习,并取得了良好的效果。图3显示了概述,下面是技术细节。

事件类型划分:基于类型级显著性估计,我们将所有事件类型分为触发词依赖集 T t r i g g e r = { T ∣ S L ( T ) ≥ λ } \mathcal{T}_{trigger} = \{T|SL(T)≥λ\} Ttrigger={ TSL(T)λ}和上下文依赖集 T c o n t e x t = { T ∣ S L ( T ) < λ } \mathcal{T}_{context} = \{T|SL(T) < λ\} Tcontext={ TSL(T)<λ}。阈值 λ λ λ根据经验确定为所有每种类型触发词显著性值的中位数,这意味着事件类型平均分为两组。

显著性增强的事件检测:接下来,我们为 T t r i g g e r \mathcal{T}_{trigger} Ttrigger T c o n t e x t \mathcal{T}_{context} Tcontext创建单独的ED模型。每个模型都使用BERT架构实现(Devlin等人,2019),并给定一个句子 s s s,它对BERT的输出执行逐字分类,以生成一个标签序列: Y ~ s = ( y ~ 1 , y ~ 2 , … , y ~ N ) \tilde{Y}_s = (\tilde{y}_1,\tilde{y}_2,\ldots,\tilde{y}_N) Y~s=(y~1,y~2,,y~N),其中 y ~ i \tilde{y}_i y~i w i w_i wi的预测事件标签。基于触发词依赖和上下文依赖类型的不同特点,我们设计了不同的显著性探索方法来促进学习。

(i) 词显著性嵌入。考虑到依赖触发词的类型通常有指示性的触发词,我们在模型中建立了一种称为词显著性嵌入(WSEs)的机制,用于 T t r i g g e r \mathcal{T}_{trigger} Ttrigger捕获这些规律。具体来说,我们首先基于 λ λ λ(即我们之前用于区分事件类型的阈值)将每个单词的显著性值量化为0或1,然后使用单独的嵌入向量来区分0和1,类似于单词嵌入。这样的嵌入被纳入模型,以捕获一种规律性,即具有高显著性值的单词更有可能成为触发词。注意,WSE也被纳入了 T c o n t e x t \mathcal{T}_{context} Tcontext的模型中,另一方面,该模型试图学习相反的规律,即具有高显着值的单词可能不是触发词。

(ii)显著性作为上下文证据。在 T c o n t e x t \mathcal{T}_{context} Tcontext的事件检测器中,我们还设计了一个机制,将显著信息解释为推理的上下文证据。考虑前面的示例S2。我们的方法将上下文单词“US minister”识别为表达整体事件语义的最显著单词(显著性值大于 λ λ λ)。这里我们将突出上下文作为补充证据,将其与句子连接起来进行学习,如图3底部所示。与WSE相比,该方法可以额外捕获显著词的词汇语义,这已被证明在识别上下文相关的事件类型方面有很大帮助(§7)。

模型集成:在测试阶段,我们将两个模型的结果结合起来进行最终预测。如果出现模棱两可的情况,即两个ED模型对同一个单词预测不同的事件类型,我们使用概率较高的类型作为结果。我们使用交叉熵损失进行优化。例如, T t r i g g e r \mathcal{T}_{trigger} Ttrigger的模型通过最小化以下损失来训练:
L = − ∑ ( s , Y s ) ∑ ( w i , y i ) ∈ ( s , Y s ) log ⁡ P ( y i ∣ w i ) L=-\sum_{(s,Y_s)} \sum_{(w_i,y_i) \in (s,Y_s)} \log P(y_i|w_i) L=(s,Ys)(wi,yi)(s,Ys)logP(yiwi)
其中 ( s , Y s ) (s, Y_s) (s,Ys)为每个训练实例; ( w i , y i ) (w_i, y_i) (wi,yi)范围覆盖每对单词及其ground-truth事件标签; P ( y i ∣ w i ) P(y_i|w_i) P(yiwi)表示模型对 w i w_i wi预测为 y i y_i yi的条件概率。我们使用Adam (Kingma and Ba, 2015)和默认超参数进行参数更新。

5、实验

数据集:ACE2005、MAVEN。

实验结果

6、总结

在本研究中,我们分析了ED模型的倾斜性能的起源,并引入了一个称为触发词显著性归因的新概念来量化事件的模式。我们为ED设计了一种新的训练范式,可以区分学习的触发词依赖类型和上下文依赖类型,在两个基准上产生了有希望的结果。我们还广泛研究了这两种类型之间的差异,我们的工作可能会促进未来对这一问题的研究。在未来,我们将把我们的方法应用到上下文模式很重要的其他任务中(例如,关系抽取)。

猜你喜欢

转载自blog.csdn.net/qq_45041871/article/details/129708657