Saliency as Evidence: Event Detection with Trigger Saliency Attribution

论文：https://aclanthology.org/2022.acl-long.313.pdf

代码：https://github.com/jianliu-ml/SaliencyED

期刊/会议：ACL 2022

摘要

事件检测(ED)是事件抽取的关键子任务，它试图识别文本中特定类型的事件触发词。尽管ED取得了重大进展，但现有方法通常遵循“一个模型适合所有类型”的方法，这种方法认为事件类型之间没有差异，通常会导致相当倾斜的性能。找出性能倾斜的原因对ED模型的鲁棒性至关重要，但迄今为止对这一问题的探索很少。这项研究深入研究了这个问题，并提出了一个新概念，称为触发词显著性归因(trigger salience attribute)，它可以明确量化事件的潜在模式。在此基础上，我们开发了一种新的ED训练机制，可以区分触发词依赖和上下文依赖类型，并在两个基准测试中取得了良好的性能。最后，通过强调触发词依赖和上下文依赖类型的许多不同特征，我们的工作可能会促进对这个问题的更多研究。

1、简介

之前的ED方法通常采用“一个模型适合所有类型”的方法，认为事件类型之间没有区别，并使用单一模型来解决所有事件(Ji and Grishman, 2008; Li et al, 2013; Chen et al, 2015; Lin et al, 2020)。然而，这种方法在不同类型上产生了相当倾斜的性能。以ACE基准为例，我们注意到最先进的ED模型(Wadden et al, 2019)在类型DIVORCE的F1中可以达到90%，但对于类型START-POSITION只有50%，更令人惊讶的是，DIVORCE的训练集比START-POSITION的训练集小8倍。找出倾斜性能潜在的原因对ED模型的鲁棒性至关重要;然而，这一问题在目前的研究中还不够充分。

在本研究中，我们重新审视了上述问题，并首次将偏斜的表现归因于事件的上下文模式(contextual patterns of events)。让我们考虑图1中所示的DIVORCE和START-POSITION的两个典型实例。直观地说，它们展示了不同的模式:DIVORCE事件更依赖触发词，触发词(即“离婚(divorced)”明确指示事件的发生;相比之下，START-POSITION事件更依赖于上下文——事件语义主要由上下文而不是触发词“成为(become)”表示，后者只是一个简单的动词。我们假设ED模型在依赖上下文的类型上表现不佳，因为捕获上下文语义具有挑战性(Lu et al, 2019; Liu et al, 2020b)。根据上述直觉，产生了两个问题:(i)我们能否定量地估计一个事件的模式?(ii))如何通过描述这些模式来增强ED模型的鲁棒性?

为了解决第一个问题，我们引入了一个名为触发词显著性归因的新概念，它可以明确量化事件的上下文模式。图2说明了关键思想:为了确定事件在多大程度上依赖于触发词或依赖于上下文，我们测量触发词对整体事件语义表达的贡献。具体来说，我们首先为每个句子分配一个表示整体事件语义的全局事件标签。然后，受到特征归因方法的启发(Simonyan et al, 2014; Sundararajan et al, 2017)，我们将每个单词视为一个特征，并计算其贡献(即显著性值)来预测全局事件标签。最后，通过检查ground-truth触发词的显著性值，我们可以判断一个事件在多大程度上依赖触发词或上下文:例如，较高的值表明触发词对事件的贡献更大，这意味着事件更依赖触发词。

为了回答第二个问题，我们开发了一种新的基于触发词显著性归因的训练机制，将显著性作为证据来增强学习。我们的方法简单而直接——我们没有使用单一模型来检测所有事件类型，而是将具有相似模式的事件类型分组在一起(通过触发词显著性归因进行评估)，并为每个组开发单独的模型。这种策略使不同的模型能够捕获不同的模式——例如，上下文依赖类型的模型可以专注于挖掘上下文信息进行学习。为了进一步促进学习，我们还提出了两种显著性探索策略来增强上述框架，可以明确地将显著性信息集成到学习中，并产生更好的表现，特别是对于上下文依赖类型(§6.2)。

为了验证我们方法的有效性，我们对两个ED基准(即ACE 2005 (LDC, 2005)和MAVEN (Wang et al, 2020))进行了广泛的实验。结果表明:(i)我们的触发词显著性归因方法可以捕捉到潜在的模式，并很好地解释了倾斜的表现，在ACE 2005和MAVEN上，每个类型F1的Spearman相关系数分别为0.72和0.61;(ii)我们基于显著性的新训练机制在两个基准上的结果有所改善。例如，在ACE 2005上，与联合训练不同事件类型的方法相比，它在F1中产生了2%的绝对增益。最后，在消融研究中，我们比较并强调了触发依赖和上下文依赖事件类型的许多重要特征(例如，语言和词汇模式);我们的工作可能会激发未来对它们模式的研究。

总之，我们的贡献有三个方面:

我们分析了一个ED模型的倾斜性能的起源，并提出了一个称为触发词显著性归因的新概念，它可以评估事件的潜在模式。作为一项开创性的研究，我们的发现提出了一种可能性，即传统的“一种模型适合所有类型”范式可能需要改变。
我们提出了一种新的基于触发词显著性归因的ED训练机制，在两个基准上取得了有前景的结果，特别是在处理上下文依赖的事件类型时。
我们强调了触发词依赖和上下文依赖事件类型的几种不同模式，我们的发现可能会刺激未来对它们差异的研究。

2、背景和相关工作

事件检测：一般采样预训练语言模型微调的方式，可以融入句法信息、文档及线索、外部监督信号去加速学习。然而，大多数方法不区分事件类型，只训练一个模型来识别所有事件类型，导致在不同事件类型上的性能相当不均衡。两项重大工作(Lu et al, 2019; Liu et al, 2020b)观察到在上下文依赖文本上的表现相对较差，并提出了更好的上下文探索策略来改善训练。尽管如此，他们的位置是提高性能，而不是调查根本原因。另一方面，我们的方法以全新的视角看待问题，旨在定义学习事件的基本模式。

特征归因：特征归因(FA)的目标是评估输入特征对模型预测的重要性，这引发了人们对解释模型决策的大量兴趣(Simonyan et al, 2014; Sundararajan et al, 2017)。形式上，假设我们有一个输入向量 $=(x_1, x_2,\ldots, x_n)∈\mathbb{R}^n$ 和表示模型的函数 $\mathbb{R}^n→[0,1]$ 。 $x$ 的属性值，相对于输出 $F (x)$ ，定义为向量 $A_{F}(x) = (a_1, a_2,\ldots, a_n)∈\mathbb{R}^n$ ，其中 $a_i$ 度量 $x_i$ 对 $F (x)$ 的贡献。现有的FA方法被归类为基于梯度的方法，该方法将输出对输入的梯度作为归因值(Simonyan et al, 2014;Springenberg et al,2015)，以及基于共指的方法，该方法将模型输出与某些“共指”输出之间的差异，就输入与某些“共指”输入之间的差异而言，作为归因值(Ribeiro et al, 2016; Sundararajan et al, 2017)。FA已被用于图像分类(Simonyan et al，2014)、机器翻译(Ding et al，2017)、文本分类(Chen et al，2018)和其他应用中的模型预测(Bastings和Filippova, 2020)。据我们所知，这是第一个将FA引入ED来量化潜在事件模式的工作。

集成梯度：集成梯度(Sundararajan et al, 2017)是一种特定的(基于共指的)FA方法，将特征归因值视为模型输入 $x$ 和共指输入 $x^{'}$ 之间的累积梯度，这表示缺乏特征。特别地， $x_i$ (即 $x$ 的第 $i$ 维)关于输出 $F (x)$ 的属性值定义为:
$a_i=(x_i -x_i') \times \int_{\alpha=0}^{1} \frac{\partial F(x'+\alpha \times (x-x'))}{\partial x_i} d \alpha$
其中 $\frac{\partial F(x)}{\partial x_1}$ 表示 $F (x)$ 到 $x_i$ 的梯度。在我们的方法中，我们更喜欢集成梯度去其他FA方法，由于其计算效率和在解决广泛的基于文本的任务的有效性(Sundararajan et al, 2017; Liu and Avci, 2019; Bastings and Filippova, 2020)。

3、触发词显著性归因

算法1概述了我们的触发词显著性归因方法，该方法包括三个主要步骤:(i)句子级别的事件分类，(ii)单词级别的显著性估计，(iii)类型级别的显著性估计。设 $[w_1, w_2,\ldots,w_N]$ 为 $N$ 个单词的句子，ED任务对应预测一个事件标签序列 $Y_s = [y_1, y_2,\ldots,y_N]$ ，其中 $y_i∈\mathcal{T}∪\{O\}$ 表示 $w_i$ 的事件标签， $\mathcal{T}$ 是包含所有预定义事件类型的集合， $O$ 为“null类型”，表示无触发词。

句子级事件分类：我们首先给 $s$ 一个句子级的事件标签 $G_s$ ，它代表整个事件语义。假设标签为 $G_s = [g_1, g_2,\ldots, g_{|T|}]∈\mathbb{R}^{|T|}$ ，其中 $g_i∈\{0,1\}$ 表示第 $i$ 个事件类型的触发词是否包含在 $s (g_i=1)$ 中 $g_i=0)$ 。接着，我们构建了一个句子级事件分类器，目标是学习从 $s$ 到 $G_s$ 的映射。特别是，我们设计了一个基于BERT的句子分类器(Devlin et al, 2019)，并采用多标签二元交叉熵损失进行优化:
$L(G_s,X_s)=-\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} g_i \cdot \log (o_i^s) +(1-g_i) \cdot \log (1-o_i^s)$
其中 $X_s$ 是 $s$ 在BERT中的输入嵌入， $o^s∈\mathbb{R}^{|\mathcal{T}|}$ 表示分类器计算的logits向量， $o^s_i$ 表示 $o^s$ 的第 $i$ 个元素。

单词级别的显著性估计：基于句子级分类器，我们接下来使用集成梯度(Sundararajan et al, 2017)来计算每个单词对预测的贡献(即显著性值)。我们利用损失函数作为期望模型(Wallace et al, 2019)，计算 $w_i$ 的显著性，更准确地计算其BERT表示 $x_i∈X_s$ ，对于损失:
$\alpha_{w_i}=(x_i-x_i') \times \int_{\alpha=0}^{1} \frac{\partial L(G_s;X'+\alpha \times (X_s-X'))}{\partial x_i} d \alpha$
其中 $X^{'}$ 是一个全零向量序列(作为共指输入)， $x_i'$ 表示 $X^{'}$ 中的第 $i$ 个元素。然后，我们将 $α_{w_i}$ 归一化为标量值 $α_{w_i}$ ，并进行逐句归一化:
$\alpha_{w_i}=e^{\parallel \alpha_{w_i} \parallel_2}/\sum_{n=1}^{N}e^{\parallel \alpha_{w_n} \parallel_2}$
其中 $\parallel \parallel$ 表示L2范数。实际上，我们可能不关心一个词对一般事件语义 $G_s$ 的显著性，而是关注一个特定的事件类型 $T∈\mathcal{T}$ 。为此，我们将 $G_s$ 替换为式(3)中 $T$ 的one-hot表示进行计算。最后，我们用 $α^{(T)}_{w_i}$ 表示 $w_i$ 相对于事件类型 $T$ 的词级显著性，如果句子没有描述任何 $T$ 类型的事件，我们假设 $α^{(T)}_{w_i}=0$ 。

类型水平的显著性估计：基于词级显著性，我们测量类型级触发显著性值(关于事件类型 $T$ )为:
$SL(T)=\frac{\sum_{(s,Y_s)}\sum_{w \in \{ w_i|y_i = T \}} \alpha_w^{(T)}}{\text{\# of training examples of type } T}$
其中 $s, Y_s)$ 表示每个训练实例; ${w_i|y_i = T\}$ 是一个包含 $s$ 中所有类型 $T$ 的触发词的集合。类型级别显著值 $S L (T)$ 表明事件类型T是如何依赖触发词或上下文的，并且它已被证明与每种类型模型的性能密切相关(§6.1)。

4、显著性增强ED

基于触发词显著性归因，我们设计了一种新的ED训练范式，可以区分具有相似模式的事件类型进行学习，并取得了良好的效果。图3显示了概述，下面是技术细节。

事件类型划分：基于类型级显著性估计，我们将所有事件类型分为触发词依赖集 $\mathcal{T}_{trigger} = \{T|SL(T)≥λ\}$ 和上下文依赖集 $\mathcal{T}_{context} = \{T|SL(T) < λ\}$ 。阈值 $λ$ 根据经验确定为所有每种类型触发词显著性值的中位数，这意味着事件类型平均分为两组。

显著性增强的事件检测：接下来，我们为 $\mathcal{T}_{trigger}$ 和 $\mathcal{T}_{context}$ 创建单独的ED模型。每个模型都使用BERT架构实现(Devlin等人，2019)，并给定一个句子 $s$ ，它对BERT的输出执行逐字分类，以生成一个标签序列: $\tilde{Y}_s = (\tilde{y}_1,\tilde{y}_2,\ldots,\tilde{y}_N)$ ，其中 $\tilde{y}_i$ 是 $w_i$ 的预测事件标签。基于触发词依赖和上下文依赖类型的不同特点，我们设计了不同的显著性探索方法来促进学习。

(i) 词显著性嵌入。考虑到依赖触发词的类型通常有指示性的触发词，我们在模型中建立了一种称为词显著性嵌入(WSEs)的机制，用于 $\mathcal{T}_{trigger}$ 捕获这些规律。具体来说，我们首先基于 $λ$ (即我们之前用于区分事件类型的阈值)将每个单词的显著性值量化为0或1，然后使用单独的嵌入向量来区分0和1，类似于单词嵌入。这样的嵌入被纳入模型，以捕获一种规律性，即具有高显著性值的单词更有可能成为触发词。注意，WSE也被纳入了 $\mathcal{T}_{context}$ 的模型中，另一方面，该模型试图学习相反的规律，即具有高显着值的单词可能不是触发词。

(ii)显著性作为上下文证据。在 $\mathcal{T}_{context}$ 的事件检测器中，我们还设计了一个机制，将显著信息解释为推理的上下文证据。考虑前面的示例S2。我们的方法将上下文单词“US minister”识别为表达整体事件语义的最显著单词(显著性值大于 $λ$ )。这里我们将突出上下文作为补充证据，将其与句子连接起来进行学习，如图3底部所示。与WSE相比，该方法可以额外捕获显著词的词汇语义，这已被证明在识别上下文相关的事件类型方面有很大帮助(§7)。

模型集成：在测试阶段，我们将两个模型的结果结合起来进行最终预测。如果出现模棱两可的情况，即两个ED模型对同一个单词预测不同的事件类型，我们使用概率较高的类型作为结果。我们使用交叉熵损失进行优化。例如， $\mathcal{T}_{trigger}$ 的模型通过最小化以下损失来训练:
$L=-\sum_{(s,Y_s)} \sum_{(w_i,y_i) \in (s,Y_s)} \log P(y_i|w_i)$
其中 $s, Y_s)$ 为每个训练实例; $w_i, y_i)$ 范围覆盖每对单词及其ground-truth事件标签; $P(y_i|w_i)$ 表示模型对 $w_i$ 预测为 $y_i$ 的条件概率。我们使用Adam (Kingma and Ba, 2015)和默认超参数进行参数更新。

5、实验

数据集：ACE2005、MAVEN。

实验结果：

6、总结

在本研究中，我们分析了ED模型的倾斜性能的起源，并引入了一个称为触发词显著性归因的新概念来量化事件的模式。我们为ED设计了一种新的训练范式，可以区分学习的触发词依赖类型和上下文依赖类型，在两个基准上产生了有希望的结果。我们还广泛研究了这两种类型之间的差异，我们的工作可能会促进未来对这一问题的研究。在未来，我们将把我们的方法应用到上下文模式很重要的其他任务中(例如，关系抽取)。