Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding

论文：https://arxiv.53yu.com/pdf/2110.07476.pdf

代码：https://github.com/VT-NLP/Event_Query_Extract

期刊/会议：ACL 2022

摘要

事件抽取通常被建模为一个多分类问题，其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。我们提出了一种新颖的事件抽取框架，该框架使用事件类型和论元角色作为自然语言查询，从输入文本中抽取候选触发词和论元。通过查询中的丰富语义，我们的框架受益于注意力机制，可以更好地捕获事件类型或论元角色与输入文本之间的语义相关性。此外，查询-抽取公式允(query-and-extract formulation)许我们的方法利用来自各种本体的所有可用事件标注作为统一模型。在ACE和ERE上的实验表明，我们的方法在每个数据集上都达到了最先进的性能，并且在零样本事件抽取上显著优于现有方法。

1、简介

事件抽取(Grishman, 1997; Chinchor and Marsh, 1998; Ahn, 2006)是一项从自然语言文本中识别和分类事件触发词和参与者的任务。如图1所示，married和left分别是Marry和Transport事件类型的两个事件提到的触发词。left事件提到了两个论元:she is an Artifact, and Irap is the Destination.

传统研究通常将事件抽取建模为多类分类问题(McClosky et al, 2011; Li et al, 2013; Chen et al, 2015; Yang and Mitchell, 2016; Nguyen et al, 2016; Lin et al, 2020)，其中首先定义了一组事件类型，然后有监督的机器学习方法将检测并将每个候选事件提到或论元分类为其中一个目标类型。但是，在这些方法中，每个事件类型或论元角色都被视为原子符号，忽略了它们丰富的语义。一些研究通过利用事件类型结构(Huang et al, 2018)，种子事件提及(Bronstein et al, 2015; Lai and Nguyen, 2019)，或问题回答(QA)(Du and Cardie, 2020; Liu et al, 2020)。然而，这些方法仍然是为单个目标事件本体设计的，因此仅限于单个目标事件本体，例如ACE (Consortium, 2005)或ERE (Song et al, 2015)。

随着多个本体的存在和处理新出现的事件类型的挑战，有必要研究可泛化的事件抽取方法，并且可以使用来自不同事件本体的所有可用训练数据。

为此，我们提出了一个遵循查询-抽取范式的新的事件抽取框架。我们的框架将事件类型和论元角色表示为具有丰富语义的自然语言查询。然后，通过利用我们提出的注意力机制来捕获它们与输入文本的交互，查询用于抽取相应的事件触发词和论元。具体来说，(1)对于触发词检测，我们根据每个事件类型的类型名和原型触发词的简短列表将每个事件类型化为一个查询，并根据每个token的查询感知嵌入对其进行二元解码(binary decoding)。(2)对于论元抽取，我们将每个事件类型下定义的所有论元角色放在一起作为一个查询，然后采用多路注意力机制对每个事件提及的所有论元进行一次性编码(one-time encoding)，每个论元预测为二元解码(binary decoding)。

与之前的研究相比，我们的方法可以自然地将各种本体作为统一模型处理(Nguyen and Grishman, 2016; Wadden et al, 2019; Lin et al, 2020)，我们的二元解码机制直接适用于表示为自然语言查询的任何事件类型或论元角色，从而有效地利用跨本体事件标注并进行零样本预测。此外，与基于QA的方法相比(Du and Cardie, 2020; Liu et al, 2020; Li et al, 2020a)也可以进行零样本论元抽取，我们的方法不需要为论元角色单独创建高质量的问题，也不需要为不同的论元角色单独创建多次编码，因此更加准确和高效。

我们在两个公共基准数据集ACE和ERE上评估了我们的方法，并在标准监督事件抽取和具有挑战性的迁移学习设置中展示了最先进的性能，这些设置可以推广到新的事件类型和本体。值得注意的是，在零样本迁移到新事件类型时，我们的方法在触发词检测方面优于强基线16%，在论元检测方面优于强基线26%。我们工作的总体贡献是:

我们将事件抽取细化为查询和抽取范式，这比以前的自顶向下分类或基于QA的方法更一般化和高效。
我们设计了一个新的事件抽取模型，利用事件类型和论元角色的丰富语义，提高了准确性和泛化性。
我们在有监督和零样本事件抽取方面建立了ACE和ERE的最新性能，并演示了我们的框架作为跨本体迁移的有效统一模型。

2、我们的方法

如图2所示，给定一个输入句子，我们首先通过将其作为对句子的查询来确定每个事件类型的候选触发词。每个事件类型(如Attack)都用自然语言文本表示，包括其类型名称和原型触发词的短列表，如入侵(invaded)和空袭(airstrikes)，这些触发词是从训练示例中选择的。然后，我们将输入句子与事件类型查询连接起来，用预训练好的BERT编码器对它们进行编码(Devlin et al, 2019)，计算每个输入token在事件类型查询的顺序表示上的注意力分布，最后将每个token分类为一个二元标签，表明它是否是特定事件类型的候选触发词。

为了抽取每个候选触发词的论元，我们遵循类似的策略，并将其对应事件类型的预定义论元角色集作为对输入句子的查询。我们使用另一个BERT编码器来学习输入句子的上下文表示和论元角色的查询。然后，将输入句子中的每个实体作为候选论元，计算实体与候选论元角色之间的多向注意力语义相关性，最后根据每个论元角色将每个实体划分为一个二元标签。

2.1 触发词检测

事件类型表示：表示事件类型的一种简单而直观的方法是使用类型名称。但是，由于类型名称的模糊性以及每种类型提到的事件的多样性，类型名称本身不能准确地表示事件类型的语义。例如，Meet可以指有an organized event，也可以指get together或matching的活动。受之前研究的启发(Bronstein et al, 2015;Lai and Nguyen, 2019)，我们使用一个简短的原型触发词列表来丰富每个事件类型的语义。

具体来说，对于每个事件类型 $t$ ，我们从训练示例中收集一组带标注的触发词。对于每个独特的触发词，我们从整个训练数据集中计算其频率为 $f_o$ ，将其标记为 $t$ 类型事件触发词的频率为 $f_t$ ，然后得到一个概率 $f_t/f_o$ ，用于对所有标注为 $t$ 类型事件的触发词进行排序。我们选择排名 $t o p - K$ 的单词作为原型触发词 $\{τ_1, τ_2,\ldots,τ_K\}$ 。

最后，每个事件类型将用自然语言单词序列表示，由其类型名称和原型触发词列表 $\{t, τ^t_1, τ^t_2,\ldots,τ^t_K\}$ 。以事件类型Attack为例，最后表示为 Attack invaded airstrikes overthrew ambushed。

上下文编码：给定一个输入句子 $\{w_1, w_2,\ldots, w_N\}$ ，我们取每个事件类型 $\{t, τ^t_1, τ^t_2,\ldots,τ^t_K\}$ 作为查询来抽取相应的事件触发词。我们将它们串联成如下序列:

$\text{[CLS] [EVENT] [SEP] } w_1 \ldots w_N \text{ [SEP] } t, τ^t_1, τ^t_2,\ldots,τ^t_K \text{ [SEP] }$

$\text{[SEP]}$ 是BERT编码器的分隔符。在(Liu et al, 2020)之后，我们使用一个特殊的符号 $\text{[EVENT]}$ 来强调触发词检测任务。

然后，我们使用预训练好的BERT编码器对整个序列进行编码，并获得输入句子 $\{w_1, w_2,\ldots, w_N\}$ 以及事件类型 $\{t, τ^t_1, τ^t_2,\ldots,τ^t_K\}$ 。

强化上下文表示：给定每个事件类型的查询，我们的目标是从输入句子中自动抽取相应的事件触发词。为了实现这一目标，我们需要捕获每个输入token与事件类型的语义相关性。因此，我们应用注意力机制来学习事件类型查询上下文表示序列的权重分布，并为每个token获得一个事件类型感知上下文表示:
$A_i^T=\frac{1}{T} \sum_{j=1}^{|T|} \alpha_{ij} \cdot T_j,\\ \alpha_{ij}=\cos(w_i,T_j)$
其中 $T_j$ 是序列中 $\{t, τ^t_1, τ^t_2,\ldots,τ^t_K\}$ 第 $j$ 个标记的上下文表示。 $\cos(·)$ 是两个向量之间的余弦相似度函数。 $A^T_i$ 表示token $w_i$ 的事件类型 $t$ 感知上下文表示。

此外，事件触发词的预测还依赖于特定上下文的发生。例如，根据ACE事件标注指南(Consortium, 2005)，要符合Meet事件的资格，必须知道会议是“face-to-face and physically located somewhere”。为了捕获这样的上下文信息，我们进一步应用上下文注意力来捕获每个输入token的有意义的上下文单词:
$A_i^W=\frac{1}{N} \sum_{j=1}^{|N|} \tilde{\alpha}_{ij} \cdot w_j,\\ \tilde{\alpha}_{ij}=\rho(w_i,w_j)$
其中 $ρ (.)$ 是注意力函数，并计算为自注意力权重的平均值，来自BERT的最后 $m$ 层。

事件触发词检测：在面向事件类型的注意力和上下文注意力机制下，输入句子中的每个token $w_i$ 将获得两个丰富的上下文表示 $A^W_i$ 和 $A^T_i$ 。我们将它们与来自BERT编码器的原始上下文表示 $w_i$ 连接起来，并将其分类为一个二元标签，表明它是事件类型 $t$ 的候选触发词:
$\tilde{y}_i^t=U_o \cdot([w_i;A_i^W;A_i^T;P_i])$
$[;]$ 表示连接操作， $U_o$ 是事件触发词检测的可学习参数矩阵， $P_i$ 是单词 $w_i$ 的POS编码的独热表示。我们优化事件检测目标函数为：
$L_1=-\frac{1}{|T||N|} \sum_{t \in T} \sum_{i=1}^{|N|} y_i^t \cdot \log \tilde{y}_i^t$
其中 $T$ 是目标事件类型的集合， $N$ 是来自训练数据集的token集。 $y^t_i$ 表示ground-truth标签向量。

2.2 事件论元检测

在检测到每种事件类型的事件触发词之后，我们根据每种事件类型的预定义论元角色进一步抽取它们的论元。

文本编码：给定句子 $\{w_1, w_2,\ldots, w_N\}$ 及其事件类型t时，我们首先获得事件类型t的预定义论元角色集 $G^t = \{g^t_1, g^t_2,\ldots, g^t_D\}$ 。为了抽取 $r$ 对应的论元，类似于事件触发词检测，我们将所有论元角色 $G^t$ 作为一个查询，并将它们与原始输入句子连接起来

$\text{[CLS] } w_1 \ldots w_N \text{ [SEP] } g^t_1 g^t_2 \ldots g^t_D \text{ [SEP] }$

这里我们使用最后一个 $\text{[SEP]}$ 分隔符来表示其他类别，表明实体不是论元。然后，我们用另一个预先训练好的BERT编码器(Devlin et al, 2019)对整个序列进行编码，以获得句子的上下文表示 $\tilde{W} = \{\tilde{w}_0,\tilde{w}_2,\ldots,\tilde{w}_N\}$ ，论元角色 $G^t = \{g^t_0,g^t_1, g^t_2,\ldots, g^t_D,g^t_{[Other]}\}$ 。

由于候选触发词 $r$ 可能跨越句子中的多个token，我们将其上下文表示 $r$ 作为 $r$ 中所有token的上下文表示的平均值。此外，由于论元通常从句子 $W$ 的实体中检测到，我们应用BERT-CRF模型，该模型在与事件抽取相同的训练集上进行优化，以识别实体 $\{e_1, e_2,\ldots, e_M\}$ 。由于每个实体也可能跨越多个token，因此遵循相同的策略，我们平均每个实体中所有token的上下文表示，并获得实体上下文表示，如 $\{e_1, e_2,\ldots, e_M\}$ 。

多路注意力：给定一个 $t$ 类型的候选触发词 $r$ 和一个实体 $e_i$ ，对于每个论元角色 $g^t_j$ ，我们需要确定 $r$ 和 $e_i$ 之间的底层关系是否对应于 $g^t_j$ ，即 $e_i$ 是否在事件提及 $r$ 中扮演 $g^t_j$ 的论元角色。为此，对于每个 $e_i$ ，我们首先获得一个触发词感知的实体表示为
$h_i=U_h \cdot ([e_i;r;e_i \circ r])$
其中 $\circ$ 表示逐元素的乘法操作。 $U_h$ 是一个可学习的参数矩阵。

为了确定每个论元角色和每个实体之间的语义相关性，我们首先计算触发词感知实体表示 $\{h_1, h_2,\ldots,h_M\}$ 和论元角色表示 $\{g^t_0, g^t_1,\ldots,g^t_D\}$ 之间的相似矩阵 $S$ 。
$S_{ij}=\frac{1}{\sqrt{d}} \sigma(h_i,g_j^t)$
其中 $σ$ 表示点积算子， $d$ 表示 $g_t$ 的嵌入维数， $S_{ij}$ 表示给定候选触发词 $r$ ，实体 $e_i$ 与特定论元角色 $g^t_j$ 的语义相关性。

基于相关矩阵 $S$ ，我们进一步应用双向注意力机制，得到每个实体的论元角色感知上下文表示和每个论元角色的实体感知上下文表示，如下所示:
$A_i^{e2g}=\sum_{j=1}^D S_{ij} \cdot g_j^t,\\ A_j^{g2e}=\sum_{i=1}^{M}S_{ij} \cdot h_i$
此外，之前的研究(Hong et al, 2011; Li et al, 2013; Lin et al, 2020)揭示了实体或论元角色之间的潜在关系对于抽取论元也很重要。例如，如果实体 $e_1$ 被预测为攻击(Attack)事件的攻击者(Attacker)，而 $e_1$ 位于(located in)另一个实体 $e_2$ 中，那么 $e_2$ 很可能扮演攻击(Attack)事件的Place论元角色。为了捕捉实体之间的潜在关系，我们进一步计算它们之间的自注意
$u_{ij}=\frac{1}{\sqrt{d}}\sigma(h_i,h_j),\\ \tilde{u}_i=\text{Softmax}(u_i),\\ A_i^{e2e}=\sum_{j=1}^M\tilde{u}_{ij} \cdot h_j$
同样地，为了捕捉论元角色之间的潜在关系，我们还计算了它们之间的自注意
$v_{jk}=\frac{1}{\sqrt{d}}\sigma(g_j^t,g_k^t),\\ \tilde{v}_j=\text{Softmax}(v_j),\\ A_j^{g2g}=\sum_{k=1}^D\tilde{u}_{jk} \cdot g_k^t$
事件论元预测：最后，对于每个候选事件触发词 $r$ ，我们通过将实体 $e_i$ 进行二分类来确定它是否在事件提到中扮演了 $g^t_j$ 的论元角色:
$\tilde{z}_{ij}^t=U_a \cdot ([h_i;g_j^t;A_i^{e2g};A_j^{g2e};A_i^{e2e};A_j^{g2g}])$
$U_a$ 是论元抽取的可学习参数嵌入。 $\tilde{z}^t$ 为事件类型 $t$ 的论元角色得分矩阵。训练目标是使以下损失函数最小化:
$L_2=-\frac{1}{|A||\mathcal{E}|} \sum_{j=1}^{|A|} \sum_{i=1}^{\mathcal{E}} z_{ij}\log \tilde{z}_{ij}$
其中 $A$ 表示可能的论元角色的集合， $\mathcal{E}$ 是我们需要考虑论元抽取的实体集。 $z_{ij}$ 表示ground-truth标签向量。在测试过程中，如果Other类别的预测值为1，则该实体将被标记为非论元。否则，它可以被标记为多个论元角色。

3、实验

3.1 实验设置

数据集：ACE2005、ERE。

我们进一步设计了两个更具挑战性和实用性的设置，以评估该方法如何利用来自不同本体的资源:(1)跨本体直接迁移(cross-ontology direct transfer)，我们只使用来自ACE或ERE的标注进行训练，并直接在另一个事件本体上测试模型。这与迁移学习文献中的领自适应设置相对应;(2)联合本体增强(joint-ontology enhancement)，将来自ACE和ERE的标注作为训练集，分别在ACE或ERE本体上测试方法。这与迁移学习文献中的多领域学习设置相对应。直观地说，具有良好可移植性的方法应该更多地受益于来自其他本体的增强训练数据。我们遵循ACE和ERE相同的训练/开发/测试分割作为有监督的事件抽取。

3.2 监督的事件抽取

3.3 零样本事件抽取

3.4 跨本体迁移

3.5 消融实验

4、相关工作

传统事件抽取研究(McClosky et al, 2011; Li et al, 2013; Chen et al, 2015; Cao et al, 2015; Feng et al, 2016; Yang and Mitchell, 2016; Nguyen et al, 2016; Zhang et al, 2017; Wadden et al, 2019; Lin et al, 2020; Wang et al, 2021)通常使用多分类器检测事件触发词和论元。与所有这些将事件类型和论元角色视为符号的方法不同，我们的方法将它们视为具有丰富语义的查询，并利用输入token与每个事件类型或论元角色之间的语义交互。

一些研究已经探索了基于种子事件触发词的事件类型的语义(Bronstein et al, 2015; Lai and Nguyen, 2019; Zhang et al, 2021)，事件类型结构(Huang et al, 2016, 2018)，定义(Chen et al, 2019)和潜在表征(Huang and Ji, 2020)。然而，它们很难推广到论元抽取。基于问答的事件抽取(Du and Cardie, 2020; Liu et al, 2020; Li et al, 2020a; Lyu et al, 2021)可以利用事件类型的语义和大规模问答数据集。与这些基于QA方法相比，有三种不同的关键设计，使我们的方法具有更好的性能和广泛性。(1)我们的方法直接将事件类型和论元角色作为查询。相比之下，以前的基于QA的方法依赖于模板或生成模块来创建自然语言问题。然而，很难为每种事件类型找到最佳的问题格式，许多研究(Du and Cardie, 2020; Li et al, 2020b)已经表明，MRC或QA模型对问题的微小变化很敏感。(2)基于QA的方法一次只能检测一个论元角色，而我们的方法通过一次编码和解码抽取一个事件触发词的所有论元，效率更高，并且利用了候选论元或论元角色之间的隐式关系。(3)基于QA的方法依赖于跨度预测来抽取论元，而不需要抽取实体，这可能导致更多的实体边界误差。因此，我们选择预训练一个名称标记模型，并对系统检测到的实体使用二元解码。此外，将事件抽取任务完全适应基于跨度的问答是相当具有挑战性的。主要原因是每个句子可能包含特定事件类型的多个触发词。即使我们可以形式化一个问题，例如，“what is the trigger for Attack?”模型很难正确地返回事件触发词的所有跨度。

5、总结和未来工作

我们使用查询-抽取范式改进了事件抽取，并设计了一个新的框架，该框架利用事件类型和论元角色的丰富语义，并使用注意力机制捕获它们与输入文本的交互，以抽取事件触发词和论元。实验结果表明，我们的方法在有监督事件抽取方面达到了最先进的性能，并对新事件类型和跨本体显示出突出的准确性和泛化性。在未来，我们将探索事件类型和论元角色的更好表示，并将它们结合提示调优方法进一步提高事件抽取的准确性和泛化性。