论文阅读：Event Extraction by Answering (Almost) Natural Questions 基于自然问答的事件抽取

Abstract-摘要

事件抽取的问题需要检测事件触发并抽取其相应的论元。事件论元抽取中的现有工作依赖于实体识别作为预处理/并行步骤，会出现错误传播的问题。为避免此问题，本文引入了一种新的事件抽取范式，该范式以端到端的方式抽取事件论元，即事件抽取公式化为问答（QA）任务。实证结果表明，该框架优于现有方法。此外，它还能够在训练时抽取未知角色的事件论元（zero-shot学习设置）。

1 Introduction-引言

事件抽取是信息抽取（IE）中一项长期研究及具有挑战性的任务（Sundheim，1992； Riloff et al., 1993；Riloff，1996）。目的是从非结构化文本中抽取结构化信息——“正在发生的事情”以及所涉及的人/物。了解文本中事件的结构对于下游应用程序（如新闻摘要和信息检索）非常重要（Yang and Mitchell，2016）。 ACE 2005语料库中的示例通过图1中的案例进行了说明（Doddington et al., 2004）。它描述了所有权转移事件（事件类型），该事件在句子中由单词“ sale”（事件触发）触发，并附带其抽取的论元-文本跨度表示填充一组（语义）角色的实体与事件类型相关联（如所有权转移事件的买方、卖方和工件）。

以往的件抽取方法都基于神经网络模型抽取的密集特征（Chen et al., 2015; Nguyen et al., 2016； Liu et al., 2018）和预训练语言模型的上下文表示（Zhang et al., 2019b; Wadden et al., 2019）。但是，它们（1）严重依赖实体识别进行事件论元抽取，特别是通常需要采用多步骤方法来进行事件论元抽取：首先利用经过训练的模型（Wadden et al., 2019）或解析器来识别实体及其类型（Sha et al., 2018），然后将论元角色（或没有角色）分配给每个实体。尽管提出了联合模型（Yang and Mitchell，2016; Nguyen and Nguyen，2019; Zhang et al., 2019a）来缓解这个问题。但是仍然会出现错误传播的问题，与使用标准实体信息的相比，在事件抽取中使用抽取的/预测的实体还会导致论元抽取的性能显着下降（Li et al., 2013； Yang and Mitchell，2016）。（2）忽略不同论元角色间的语义相似性。例如，在ACE 2005语料库（Doddington et al., 2004）中，CONFLICT.ATTACK事件和JUSTICE.EXECUTE分别带有论元角色TARGET和PERSON。在这两种情况下，论元角色都是指某人受某个动作影响。不考虑它们之间的相似性会影响性能，特别是对于训练时很少/没有案例的论元角色（如，在2017年Levy 等人提出的zero-shot）。
在本文中，针对事件抽取任务提出了一种新的范式——将其表述为问答（QA）/机器阅读理解（MRC）任务。通用框架如图2所示。我们设计了用于触发检测的固定问题模板和用于抽取每个论元角色的各种问题模板。在将输入语句输入模型以获取抽取信息之前，将使用模板实例化输入语句。详细内容将在第2节中说明。

本文的范例为解决该问题有许多优势：（1）该方法不需要实体注释（黄金或预测的实体信息）。更具体地说，它是采用端到端模型进行事件论元抽取，不需要实体识别的任何预处理步骤。（2）问答范式能够学习不同模型中语义相似的论元角色而进行抽取事件论元，从实验上证明，触发器和论元抽取的性能均优于先前方法（第3.2节）。还证明了本文的框架能够抽取未知角色的事件论元（zero-shot）；（3）在本文范式下，可以探索问答/机器阅读理解模型（例如MatchLSTM（Wang and Jiang，2016），BiDAF（Seo et al., 2016）等）的优势。我们的主要贡献和发现可以总结如下：
 我们提出了一个问答框架（图2），用于检测事件触发原因并抽取其相应的论元。据我们所知，这是将事件抽取问题转换为QA任务的首次尝试。
 我们进行了广泛的实验，以评估我们在自动内容抽取（ACE）事件抽取任务上的框架。我们提出了几种质疑策略，并研究了它们对模型性能的影响。我们发现，使用基于注释准则的提问策略（即问题编码更具自然性和语义）以及触发信息可以产生最佳结果，尤其是在论元角色未知的情况下。我们最好的模型优于ACE事件抽取任务上的先前模型。
我们的作品代码和问题模板将在https://github.com/xinyadu/eeqa上开源，以供复制。

2 Methodology-方法论

在本节中，首先对框架进行了概述（如图2），然后深入地研究了该框架中各部分细节：提问策略、模型训练和推理。

2.1 Framework Overview-框架概述

给定输入语句，我们使用触发器将问题模板进行实例化，以获取用于触发检测的QA模型的输入序列（绿色框BERT_QA_Trigger）。在获得抽取的输入语句的触发及其类型（即事件类型）后，对预测事件类型的每个论元角色进行实例化。然后，将实例化的输入序列传递到另一个QA模型中以进行论元抽取（橙色框BERT_QA_Arg）。最后，将动态阈值应用于所抽取的候选论元，并且仅保留顶部论元。
这两个质量检查模型的输入序列共享相似的格式：

其中[CLS]是特殊分类标记，[SEP]是特殊标记以表示分离。我们将在第2.2节中提供有关如何使用各种策略解决问题的详细信息。有关质量保证模型和推理过程的详细信息，请参见第2.3节。

2.2 Questioning Strategies-提问策略

对于事件触发检测，我们设计了简单的固定模板（“触发是什么”，“触发器”，“动作”，“动词”）。基本上，我们使用固定的文字短语作为问题。例如，如果我们选择“动词”模板，则实例化后的输入序列为：

接下来，我们介绍用于论元抽取的问题模板，我们设计三个模板，分别具有论元角色名称，基于基本论元的问题和基于注释准则的问题。
 模板1（论元角色名称）对于此模板，我们使用论元角色名称（例如工件、代理、位置）作为问题。
 模板2（基于论元的问题）我们首先确定论元角色的类型（人、地点或其他），而不是直接使用论元角色名称（[argument]）作为问题。然后，基于基本类型信息，我们确定要提问的“ wh”单词（[wh_word]）-谁代表人、代表地方是哪里以及其他什么。总而言之，问题是：

这样，与模板1问题相比，在模板2问题中添加了更多的语义信息。
 模板3（基于注释准则的问题）为了将更多自然性和语义信息纳入问题，我们利用ACE事件注释准则（Linguistic Data Consortium，2005）中每个论点角色的描述来设计（几乎）自然问题。
最后，为了对触发信息进行编码，我们在问题的末尾添加“ in [trigger]”（其中使用来自触发检测阶段的真实触发token实例化[trigger]）。例如，包含触发信息的模板2问题将是：

为了帮助更好地理解上述所有策略，表1给出了事件类型为MOVEMENT.TRANSPORT的论元角色的示例。我们在表中看到，基于注释准则的问题更加自然，并且针对给定论元角色编码了更多的语义。例如，对于“工件”，问题“正在运输什么”（来自注释准则中角色的描述）比简单的问题“工件是什么”更自然。

2.3 Question Answering Models-问答模型

我们使用BERT（Devlin et al., 2019）作为基础模型，从BERT_QA_Trigger和BERT_QA_Arg的输入序列中获取上下文表示，论元在训练过程中进行更新。在使用问题模板实例化之后，序列的格式为[CLS]问题[SEP]句子[SEP]。然后，我们分别使用BERTTr和BERTArg获得用于触发检测和论元抽取的每个token的上下文表示。对于准备用于触发检测的输入序列（e1,e2,…,eN），我们有：

至于为论元范围抽取准备的输入序列（a1，a2，…，aM），我们有：

输出层不同：BERT_QA_Trigger预测句子中每个标记的类型，而BERT_QA_Arg预测论元范围的开始和结束偏移量。
对于触发预测，我们引入一个新的论元矩阵Wtr∈RH×T，其中H是转换器的隐藏大小，T是事件类型的数量加一（对于非触发token）。 softmax规范化适用于T类型：

对于论元论元预测，我们引入了两个新的论元矩阵Ws∈RH×1和We∈RH×1，对输入tokens a1,a2,…,aM进行softmax归一化，以获取每个token被选为论元范围的start/end的概率：

为了训练模型（BERT_QA_Trigger和BERT_QA_Arg），我们最小化了两个模型的对数似然损失。特别地，论元抽取模型的损失是两个部分的总和：开始token损失和结束token损失。对于没有论元范围的训练示例，我们将第一个标记（[CLS]）的开始和结束概率减至最小。

在测试时，为了进行触发检测，要获得每个token e1,e2,…,eN的类型，我们只需将argmax应用于Ptr。
使用动态阈值推测论元跨度在测试期间，预测论元跨度更为复杂：因为对于每个论元角色，可能要抽取多个跨度，也可能没有跨度。在输出层之后，我们具有每个标记ai∈(a1,a2,…,aM)成为论元范围的开始（Ps(i)）和结束（Pe(i)）的概率。
我们运行算法1，以获取每个论元角色的句子中所有有效的候选论元范围。基本上，我们

1.枚举论元范围（第2–3行）的所有可能的起始偏移量（start）和结束偏移量（end）组合；
2.消除不满足约束条件的跨度：开始和结束标记必须在句子内；跨度的长度应短于长度约束，Ps(start)应大于[CLS]为起始标记的概率，Pe(end)应大于[CLS]为终止标记的概率（线4–6）;
3.计算候选论元跨度的相对无答案分数（na_score），并将候选论元添加到列表中（第7–9行）。
然后，在算法2中，我们获得了有助于在开发集上获得最佳评估结果的阈值（第1-9行）。最后，我们将最佳阈值（best_thresh）应用于测试集中的所有候选论元范围，并且仅保留na_score大于阈值的顶部论元（第10-13行）。通过动态阈值确定每个角色要抽取的论元数量，我们避免了为此目的添加（硬）超论元的情况。

3 Experiments-实验

3.1 Dataset and Evaluation Metric-数据集和评估指标

我们对ACE 2005语料库（Doddington et al., 2004）进行了实验，其中包含2003年至2005年之间从新闻通讯（nw），网络日志（wl），广播对话（bc）和广播等多个领域爬取的文档新闻（十亿）。我们用于评估的部分已完全注释为5,272个事件触发器和9,612个自变量。我们使用与先前工作相同的数据拆分和预处理步骤（Zhang et al., 2019b; Wadden et al., 2019）。
至于评估，我们采用Li等人定义的相同标准。（2013）：如果事件触发器的偏移量与黄金标准触发器的偏移量匹配，则可以正确识别该事件触发器；如果事件类型（总计33个）也符合黄金标准触发器的类型，则将其正确分类。如果事件论元的偏移量和事件类型与文档中提到的任何参考论元的偏移量和事件类型相匹配，则可以正确识别事件论元（ID）。如果其语义角色（总共22个）也正确，则将其正确分类。尽管我们的框架不涉及触发/论元识别步骤，但以端到端的方式解决了识别+分类问题。我们仍会报告触发器/论元标识的结果，以便与先前的工作进行比较。与最终触发器检测和论元抽取指标（ID +分类）相比，它可能被认为是更宽松的评估指标，后者要求偏移量和类型都正确。使用精度（表示为P），召回率（表示为R）和F1分数（表示为F1）评估所有上述元素。

3.2 Results-结果

对ACE事件抽取的评估我们将我们的框架的性能与许多先前的竞争模型进行了比较：dbRNN（Sha et al., 2018）是一个基于LSTM的框架，它利用依赖图信息来抽取事件触发器和论元角色。 Joint3EE（Nguyen和Nguyen，2019）是一个多任务模型，通过共享的Bi-GRU隐藏表示执行实体识别，触发器检测和论元角色分配。 GAIL（Zhang et al., 2019b）是一个基于ELMo的模型，该模型利用生成对抗网络帮助该模型专注于难以检测的事件。 DYGIE ++（Wadden et al., 2019）是一个基于BERT的框架，可对文本跨度进行建模并捕获句子内部和交叉句子上下文。
在表2中，我们比较了模型在触发检测方面的性能。我们还实现了BERT微调基线，它的性能几乎与DYGIE ++中的对应性能相同。我们观察到，具有最佳触发提问策略的BERT_QA_Trigger模型达到了与基线模型相当（更好）的性能。

表3显示了我们的模型与基准系统在论元抽取方面的比较。注意，论元抽取的性能直接受到触发器检测的影响。因为自变量抽取的正确性要求正确识别和分类自变量所引用的触发器。我们观察到：（1）尽管它不使用实体识别资源，但具有最佳论证问题策略（基于注释准则的问题）的BERT_QA_Arg模型明显优于先前的研究；（2）F1性能从论元识别（正确的偏移量）到论元ID +分类（正确的偏移量和论元角色）的下降仅为1％左右，而对于依赖实体识别和论元抽取的多步骤过程。这再次证明了我们采用新格式解决任务的好处。

为了更好地了解动态阈值如何影响框架的性能。我们对此进行了消融研究（表3），发现阈值大大提高了精度，并提高了一般F1。表中的最后一行显示了使用模板2问题训练的BERT_QA_Arg和使用模板3问题训练的另一个BERT_QA_Arg的预测的测试时间整体表现。集成系统在准确性和查全率方面都优于非集成系统，这证明了这两个模板的好处。
评估看不见的自变量角色要检查我们的公式如何为抽取具有看不见的自变量角色的变量提供优势变量ID +分类PR F1随机NE 26.61 24.77 25.66 GAIL（Zhang et al., 2019b）100.00 0.00 0.00我们的模型带有模板1 73.83 53.21 61.85 w /模板2 77.18 55.05 64.26 w /模板3 78.52 59.63 67.79表4：对看不见的论点角色的评估。（类似于Levy等人（2017）中的零射关系抽取设置），我们进行了另一个实验，在训练时我们保留了80％的论点角色（16个角色）和20％（6个角色）仅在测试时间看到。具体来说，看不见的角色是“车辆，人工制品，目标，受害者，收件人，买方”。表4给出了结果。随机NE是我们在句子中选择命名实体的随机基准，它的合理性能接近25％。诸如GAIL之类的现有模型无法处理看不见的角色。使用基于质量保证的框架，随着我们在问题中利用更多的语义信息和自然性（从问题模板1到2，再到问题3），准确性和查全率都大大提高了。

4 Further Analysis-进一步分析

4.1 Influence of Questioning Templates-提问模板的影响

调查提问策略如何影响事件抽取的性能。我们分别使用不同的策略对触发和论元抽取进行了实验。
在表5中，我们尝试对触发检测使用不同的问题。留空表示用空字符串实例化问题。不同的选择之间没有实质性的差距。通过使用“动词”作为问题，我们的BERT_QA_Trigger模型可获得最佳性能（由F1衡量分数）。

用于论点抽取的不同提问策略之间的比较更加有趣。在表6中，我们以两种设置呈现结果：具有预测触发器（与表3中的设置相同）的事件论元抽取，以及具有金色触发器的事件论元抽取。总而言之，我们发现：

 在问题后添加“ in [trigger]”，可以持续改善性能。它用作触发器在输入句子中的什么位置。在不添加“触发”的情况下，对于每个模板（1、2和3），模型的预测F1在给出预测触发条件时下降约3％，在给出黄金触发条件时下降更多。
 我们最自然的模板3提问策略可实现最佳性能。正如我们前面提到的，模板3问题基于注释准则中对自变量角色的描述，从而编码了有关角色名称的更多语义信息。而这与模型预测的准确性相对应-在“处于[触发状态]”和没有“处于[触发状态]”设置下，模板3均优于模板1＆2。此外，我们发现模板2（添加疑问词以形成问题）比模板1（直接使用自变量角色名称）具有更好的性能。

4.2 Error Analysis-错误分析

我们将进一步进行错误分析，并提供许多具有代表性的示例。表7总结了用于触发检测和论元抽取的错误统计信息。对于事件触发器，大多数错误与丢失/伪造的预测有关，只有8.29％涉及错误分类的事件类型（例如，将ELECT事件误认为是STARTPOSITION事件）。对于事件自变量，至少包含一个黄金事件的句子数据，我们的框架仅在大约14％的案例中抽取了更多的论据。在大多数情况下（54.37％），我们的框架会抽取较少的论元范围，这与表3中的结果相对应，表3中的模型精度更高。在大约30％的情况下，我们的框架抽取的论元范围数量与gold数据中的论元范围相同，其中一半与gold论元完全匹配。

通过检查示例，我们发现错误的原因主要可以分为三类：（1）缺乏获取论元范围的精确边界的知识。例如，在“华盛顿与平壤之间的核争议谈判已于4月23日在北京举行……”中，对于ENTITY角色，应抽取两个论点范围（“华盛顿”和“平壤”）。虽然我们的框架将整个“华盛顿和平壤”作为论据范围进行了预测。尽管预测和黄金数据之间存在重叠，但是该模型并没有因此得到赞誉。（2）缺乏文档级上下文的推理。在句子“ MCI现在必须没收埃伯斯拥有的其他资产以担保贷款”。有一个由贷款触发的TRANSFER-MONEY事件，MCI是GIVER，而Ebbers是接收者。在上一段中，提到了“埃伯斯未能偿还MCI贷款中的一定金额。”没有这种背景，很难确定埃伯斯应该是贷款的接受者。（3）数据和词汇稀疏性。在以下两个示例中，我们的模型无法检测到END-POSITION类型的触发器。 “部长托尼·布莱尔说，驱逐萨达姆·侯赛因现在是解决类似危机的关键。” “没有迹象表明埃尔多安是否会清除反对派遣部队的官员。”部分原因是在训练过程中没有将它们视为触发词。 “驱逐”一个罕见的词，并且不在分词器的词汇表中。为此目的，仅从句子上下文中进行推断是困难的。

5 Related Work-相关工作

事件抽取

目前，大多数事件抽取研究都集中在2005年自动内容抽取（ACE）句子级事件抽取任务上（Walker et al., 2006）。近年来，已证明卷积神经网络（Nguyen and Grishman，2015; Chen et al., 2015）和递归神经网络（Nguyen et al., 2016）的连续表示对管道分类器有很大帮助。为了减少错误传播的影响，已经提出了用于事件抽取的联合模型，Yang和Mitchell（2016）考虑了事件和实体之间的结构依赖性。它需要繁重的功能工程来捕获判别信息。 Nguyen和Nguyen（2019）提出了一个多任务模型，该模型通过共享Bi-GRU隐藏表示来执行实体识别，触发检测和论元角色预测。Zhang et al.,（2019a）利用了基于神经迁移的抽取框架（Zhang and Clark，2011），该框架需要专门设计的迁移动作，尽管实体识别和论元角色预测是通过联合方式完成的，但仍需要在解码过程中识别实体。这些方法通常在解码期间执行触发检测→实体识别→论元角色分配。与上述工作不同，我们的框架完全绕过了实体识别阶段（因此不需要注释资源），并直接处理事件论元抽取。与我们的工作有关的还有Wadden et al.,（2019），他们对实体/论元范围（具有开始和结束偏移量）进行建模，而不是使用BIO方案进行标注。与我们的工作不同，他们学习到的跨度表示形式随后将用于预测实体/论元类型。而我们的质量检查模型直接抽取某些论元角色类型的跨度。事实证明，预训练语言模型（Peters et al., 2018; Devlin et al., 2019）产生的情境化表示有助于事件抽取（Zhang et al., 2019b; Wadden et al., 2019）和问答（Rajpurkar et al., 2016）。注意力机制有助于捕获所讨论token与输入序列之间的关系。我们在框架中使用BERT来捕获问题和输入句子之间的语义关系。

机器阅读理解（MRC）

基于跨度的MRC任务涉及从一个段落（Rajpurkar et al., 2016）或多个段落（Joshi et al., 2017; Kwiatkowski et al., 2019）中抽取跨度。近来，已经有关于将NLP任务表述为问答的探索。 McCann et al.,（2018）提出了自然语言十项全能挑战（decaNLP），该挑战由十个任务（例如机器翻译、摘要、问答等）组成。他们将所有任务都转换为上下文中的问答，并为此提出了一个通用模型。在信息抽取文献中，Levy et al.,（2017）提出了零散关系抽取任务，并将任务简化为回答来自人群的阅读理解问题。 Li et al.,（2019b）将实体关系抽取转换为多回合问答任务。他们的问题缺乏多样性和自然性。例如，对于PART-WHOLE关系，模板问题是“找到属于X的Y”，其中X是使用预先给定的实体实例化的。 Li et al., （2019a）的后续工作提出了更好的查询策略，将同义词和示例结合在一起以实现命名实体识别。与上述工作不同，我们将重点放在更复杂的事件抽取任务上，该任务涉及触发检测和论元抽取。我们抽取事件论元的问题更加自然（基于注释准则），并且可以利用触发信息。

6 Conclusion-结论

在本文中，介绍了一种基于问答的事件抽取新范式。还验证了提问策略如何在触发检测和论据抽取方面影响框架的性能，并发现利用更多的自然问题会取得更好的性能。该框架优于以往在ACE 2005基准上所做的工作，并且能够在训练时抽取未知角色的事件论元。未来工作中，将尝试在该方法中加入更广泛的上下文来提高其预测的准确性（例如，段落/文档级上下文 (Ji and Grishman, 2008; Huang and Riloff, 2011)）。