事件抽取纵览

paper：https://arxiv.org/abs/2107.02126.pdf

一、论文概要

本论文主要是讨论了事件抽取的常用方法、数据集以及对应的评价指标。本综述还提供了不同技术之间的综合比较。最后，总结了今后的研究方向。

二、事件抽取简介

事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式，是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件，通常可以描述为状态的变化。

我们给出了事件抽取流程图，如图Fig1所示。

大多数基于深度学习的事件提取方法通常采用监督学习，这意味着需要高质量的大数据集。ACE 2005是少数可用的标记事件数据之一，手动标记新闻，博客，采访和其他数据。ACE数据规模小是影响事件提取任务发展的主要因素。依赖人工标注语料库数据耗时耗力，导致现有事件语料库数据规模小、类型少、分布不均匀。事件提取任务可能非常复杂。一个句子中可能有多个事件类型，不同的事件类型将共享一个事件参数。同样的论点在不同事件中的作用也是不同的。根据抽取范式，基于模式的抽取方法可分为基于管道的抽取方法和基于联合的抽取方法。对基于管道的模型学习事件检测模型，然后学习参数抽取模型。联合事件提取方法避免了触发器识别错误对参数提取的影响，但不能充分利用事件触发器的信息。到目前为止，最好的事件提取方法是基于联合的事件提取范例。

对于传统的事件提取方法，需要进行特征设计，而对于深度学习事件提取方法，可以通过深度学习模型进行端到端的特征提取。综合分析了现有的基于深度学习的事件提取方法，并对未来的研究工作进行了展望。本文的主要贡献如下:

介绍了事件提取技术，回顾了事件提取方法的发展历史，指出基于深度学习的事件提取方法已成为主流。我们根据表1中发表年份总结了深度学习模型的必要信息，包括模型、领域、场所、数据集和子任务。
我们详细分析了各种基于深度学习的提取范式和模型，包括它们的优缺点。我们介绍了现有的数据集，并给出了主要评价指标的制定。我们在表3中总结了主要数据集的必要信息，如类别的数量，语言和数据地址。
我们在表5中总结了ACE 2005数据集上的事件提取准确度得分，并讨论了事件提取面临的未来研究趋势，从而总结了综述。

三、事件抽取介绍

事件抽取是针对改定的文档，从中预测事件描述、事件触发词、事件对应的要素以及对应要素的角色。图Fig2中包括两个事件：“Die”和“Attack”，他们的事件触发词分别是“died”和“fired”。对于事件Die，事件要素是“Baghdad”，“cameraman”，“American tank”，他们对应的要素角色是“Place”，“Victim”，“Instrument”；对于时间Attack，事件要素是“Baghdad”，“American tank”，他们对应的要素角色是“Place”，“Instrument”。

通过Fig2的例子，说明一下事件抽取的相关概念

序号	概念名称	概念描述
1	实体（Entity）	语义对象。比如人名、机构、组织都是实体
2	事件描述（Event mentions）	描述事件信息的短语或者句子，图Fig2中的文本片段就是一个事件描述
3	事件类型（Event type）	是事件的标签，通常是事件触发词的类型
4	事件触发词（Event trigger）	标志着事件的开始，一般是动词或者动名词
5	事件要素（Event argument）	用来描述一个事件的时间、地点、人物
6	要素角色（Argument role）	事件要素在事件进行过程中的作用