事件抽取综述

1  基本概念... 1

1.1  事件... 1

1.2 事件抽取... 1

2  主流技术分析... 2

2.1 元事件抽取... 2

2.1.1 基于模式匹配的元事件抽取... 3

2.1.2 基于机器学习的元事件抽取... 3

2.1.3 基于神经网络的抽取方法... 4

2.2 主题事件抽取... 8

2.2.1  基于事件框架的主题事件抽取... 8

2.2.2 基于本体的主题事件抽取... 9

3  中文事件抽取算法分析... 9

3.1 事件抽取算法效果分析... 10

3.2 算法时间复杂度分析... 12

3.3 目前前沿联合模型方法... 12

4 已知问题... 14

5 研究趋势... 15

参考文献... 15

 

1  基本概念

1.1  事件

1)  定义

作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。

2) 组成元素

组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

  • 事件触发词:表示事件发生的核心词,多为动词或名词;
  • 事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
  • 事件论元:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
  • 论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

如下例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

图1 Examples of ACE events

1.2 事件抽取

1)  定义

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

2)  分类

事件抽取任务总体可以分为两个大类:元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

3)  效果评测

在事件抽取应用中通常采用两种不同的效果评价方法:基于召回率 (记为 R) 准确率 (记为 P) 的微平均 (记为F) 值法,或基于丢失率 (记为 L) 误报率 (记为 M) 的错误识别代价 (记为 C) 法。其中,

F=2\times PR/\left ( P+R \right )

C=Cmiss\times L\times Ltar+Cfa\times M\times \left ( 1-Ltar \right )

Cmiss为一 次 丢 失 的 代 价, Cfa为一次误报的代价,Ltar为系统作出肯定判断的先验概率, 通常根据具体应用设定为常值。上述公式表明,两种效果测评方法之间不存在简单的逆反关系,因此在分析不同评价方法下的两种不同算法的效果时应进行适当的换算。

微平均值法一般多用于单一事件抽取任务中,如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言,相对于正确率,人们对系统作出的错误判断往往更为敏感,这些错误包括:本应为是的判断为否 (丢失) ,本应为否的判断为是 (误报) ,因此常采用错误识别代价作为效果评价方法。另外,事件抽取的各种算法在实际应用中,除考虑其识别结果的正确率外,还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往往是以牺牲时间为代价的。一些算法可能由于硬件要求太高,或训练时间太长而不具备可行性。

2  主流技术分析

2.1 元事件抽取

元事件抽取的主要研究方法有模式匹配和机器学习两大类。模式匹配在特定领域内能取得较高的性能,但移植性较差。在机器学习的抽取方法中,机器学习与领域无关,无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。目前,机器学习已成为元事件抽取的主流研究方法。

2.1.1 基于模式匹配的元事件抽取

模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环,集中体现了领域知识和语言知识的融合。抽取时只要通过各种模式匹配算法找出符合模式约束条件的信息即可。由此可见,其核心是抽取模式的构建。典型的基于模式匹配的事件抽取系统有 ExDisco,GenPAM等。

起初,模式主要是通过手工方法来建立的。中国科学院的姜吉发在其博士论文中对模式的自动获取做了深入的研究,提出了一种基于领域无关概念知识库的事件抽取模式学习方法GenPAM,在模式的学习过程中,用户只需定义 IE 任务,无需提供种子模式及对语料分类和标注,系统就能自动从未经分类和标准的语料中学习出 IE 模式,大大降低了用户的劳动量和技能要求。

总的来说,基于模式匹配的方法在特定领域内可以取得比较好的效果,但是系统的可移植性差,从一个领域移植到另一个领域时,需要重新构建模式。而模式的构建费时费力,需要领域专家的指导。虽然机器学习方法的引入可以从一定程度上加速模式的获取,但是不同模式之间造成的冲突也是一个棘手的问题。并且,现有研究的语义程度大多停留在句法层级上,需要进一步提高其语义程度。

2.1.2 基于机器学习的元事件抽取

采用机器学习的方法识别事件,就是借鉴文本分类的思想,将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。但事件分类与文本分类又有所区别,主要表现在以下方面: 分类的文本短,大部分都是一个完整的句子; 因为是事件表述语句,所以语句中包含的信息量大。

对元事件的识别主要包括事件类别的识别与分类以及  事件元素识别两大核心任务。Chieu 等首次在事件抽取中引入最大熵模型用于事件元素的识别,实现了对讲座通告和人事管理事件的抽取。H. Llorens 等通过 CRF 模型进行语义角色标注,并应用于TimeML的事件抽取,提升了系统的性能。为了提高识别效果,有时将多种机器学习算法混合使用或将机器学习与模型匹配相结合。D. Ahn 结合 MegaM 和 TiMBL 两种机器学习方法分别实现了事件类别识别和事件元素识别两大任务,在 ACE 语料的实验结果表明该方法优于采用单一算法。

上述研究大多是基于触发词来进行事件的探测,例如  Ahn 的研究将每一个词作为训练实例,然后采用 MegaM 二元分类器判断当前词是否为触发词。这种方式简单直观,但触发词只占所有词的一小部分,这样就在训练中引入大量反例,导致正反例不平衡,并且对每个词判断会导致计算量的额外增加。为了解决上述问题,赵妍妍采用了一种基于触发词扩展和二元分类相结合的方法来识别事件类别。在训练中将触发词收录在词典中并通过同义词林进行扩展,较好地解决了训练实例正反例不平衡以及数据稀疏问题,在 ACE 的中文语料上取得较好的效果。而许红磊与 Naughton 则采用基于事件实例的方式进行事件的探测,这种方法将句子而非词语作为识别实例,克服了传统的基于触发词方法不可避免的正反例失衡和数据稀疏问题。许红磊采用二元分类器过滤非事件句,得到候选事件句,然后采用多元分类器对候选事件句进行分类。Naughton 则将事件的探测转化为句子聚类问题,通过聚类得到事件句。

综上可知,基于机器学习的方法虽然不依赖于语料的内容与格式,但需要大规模的标准语料,否则会出现较为严重的数据稀疏问题。但现阶段的语料规模难以满足应用需求,且人工标注语料耗时耗力,为了缓解获取已标注语料的困难,有关学者探究了半监督及无监督的学习研究。另外,特征选取也是决定机器学习结果好坏的重要因素。因此,怎样避免数据稀疏现象以及如何选择合适的特征,成为基于机器学习方法研究的重要课题。当前绝大多数研究都是基于短语或句子层级的信息,利用篇章级或跨篇章的信息来提高抽取性能将成为一个新的热点。

2.1.3 基于神经网络的抽取方法

作为一种有监督多元分类任务,事件抽取方法包括2个步骤: 特征选择和分类模型。本文根据使用特征的范围不同、模型学习方式不同和外部资源的使用与否对不同的事件抽取方法进行分类。各类方法的研究内容可详见如下:

  1. 根据所使用特征的范围,事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。
  2. 根据学习方式不同,可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。事件抽取任务分为事件识别和论元角色分类任务。其中,后者输入依赖于前者输出。论元角色分类任务的输入是识别出的触发词和所有候选实体。大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。
  3. ACE05 数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即 ACE 数据) 的事件抽取  方法和融合外部资源的事件抽取方法。

2.1.3.1 句子/篇章级的事件抽取

传统方法中,句子级别的特征可以分为基于词的特征和基于词对的特征。其中,基于词的传统离散特征包括: 1)词法特征:例如当前词及周边词的一元/ 二元语法、词性标签、词干、同义词等。2)句法特征:例如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法 分析树中路径等。3)实体信息:例如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。

基于词对的特征有: 触发词-触发词之间的共现关系和触发词-论元的多种依赖关系等。而篇章级事件抽取方法则额外考虑了跨句子或跨文档的特征辅助任务实现。例如,相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征。

传统方法使用不同的分类模型进行分类,例如常用的最大熵模型和支持向量机模型。

不同于传统离散特征,神经网络方法以连续型向量为特征,并通过不同的神经网络模型学习更抽象的特征。以事件识别任务为例,神经网络事件抽取方法的流程为: 首先用初始化的特征 向量表示候选触发词,然后通过神经网络模型自动更新学习特征以及组合更高级别特征,最后通过Softmax 模型来输出分类。Chen 等人和 Nguyen 等人率先尝试将神经网络方法分别应用于事件抽取、识别任务中,并取得了很好的效果,验证了神经网络特征的有效性。初始特征表示方面,二者均采用了预训练的词向量作为每个单词的初始表示,而且还融入了单词的语义和语法信息的建模研究。特殊而必要地,二者还都使用了位置信息来建模当前词和候选触发词的距离。受传统特征启发,常用的特征还包括当前词的事件类型向量和实体类型向量。

Nguyen 等人利用实体类型特征来辅助事件识别任务,而Chen 等人使用事件类型特征用于角色分类任务。在上层特征学习模型方面,研究中均使用了卷 积神经网络模型来自动抽取有效特征进行事件抽取或识别任务。更进一步地, Chen 等人改进了传统的CNN 模型,增配了动态多池机制( dynamic multi-pooling) 来提高事件抽取任务性能。研究认为,相比于最大池机制,通过候选触发词和候选实体位置分割成 3 部分的动态多池机制,能够获取更为精细、有效的特征用于角色分类。Nguyen 等则提出了一种基于离散短语( skip-gram) 的卷积神经网络模型来辅助事件识别。相比于传统的连续词袋模型,基于离散短语的卷积神经网络模型能够获取更丰富的非连续短语上特征,而无需再限定于局部连续短语特征。除了基于卷积神经网络的特征学习模型外,还有研究者采用递归神经网络( Recurrent Neural Network,RNN) 对文本中的序列信息进行建模,从而为事件抽取任务提供助益支持。Feng 等人采 用一个基于 RNN 的模型来获取文本中的序列信息,并采用一个卷积层来获取文本中的短语块信息,将 2 种信息合并后进行事件触发词识别。由于没有使用额外特征,该混合模型是语言无关模型,在多种语言的事件识别任务中取得了良好效果。

以往的传统事件抽取工作和上述神经网络事件抽取方法均尝试了将触发词的相关特征,如事件类别信息、位置信息等用于辅助论元角色分类任务,但却尚未探索论元的信息对触发词识别任务的作用。借助于注意力模型( Attention) , Liu 等人独家采用了有监督的论元注意力模型将论元信息输入至事件识别模型中,其效果验证了论元信息能够高效地辅助事件触发词识别任务。不同于联合模型中触发词和论元信息相互辅助的间接方式,该方法提出的论元注意力模型最直接地将论元信息用于辅助识别触发词。

2.1.3.2 基于联合模型的神经网络事件抽取方法

在基于传统特征的事件抽取方法中,联合地学习事件识别任务和论元角色分类任务首推 Li 等的工作。该研究通过结构化感知机模型( structured perceptron) 进行2个任务的联合学习,以柱搜索策略搜索得到最优结果。特征表示方面,该工作设计了一系列高效的离散特征,包括:表示触发词和论元本身词性、语法、句法、语义信息的局部特征和能够进行触发词-论元信息交互的全局特征。该工作证明了联合学习方法比流水线方式更趋有效,对于论元角色分类任务提升尤为明显( F1值48.3% 到52.7%) 。基于联合模型的神经网络事件抽取方法则采用了神经网络模型进行特征学习和联合学习,避免了复杂的特征工程。Nguyen 等人提出一种基于 RNN 的模型进行事件识别和论元角色分类的联合学习。同时,文献中也构建了局部特征和全局特征来着重用于特征表示。局部特征包括文本序列特征和局部窗口特征。由预训练词向量、实体类型向量、二元依存关系向量组成的句子表示被传递给 RNN 模型,用以获得序列特征。由窗口内的词向量组成了局部窗口特征。特别地,研究提出利用记忆网络模型( Memory Network) 来建模触发词-触发词之间、论元-论元之间和触发词-论元之间的全局特征,进而同时提高2个任务性能。此外,该工作还加入了文献中使用的论元局部特征来辅助角色分类。

该联合模型获得了论元角色分类任务的state-of-the-art效果( F1 值 55.4%) 。 除了联合学习事件识别和论元角色分类任务外,Yang 等人首次尝试了联合学习实体识别任务。为减轻任务复杂度,以往方法均将带有实体标记的 ACE 数据集作为输入.是一个完全的端到端学习模型,即以纯文本为输入,以最终事件为输出。过程中,通过采用联合因子图模型 (Factor Graph) 来联合学习每个事件内部的结构化信息、篇章内不同事件间的关系和实体信息。除了人工定义的传统特征外,该工作使用的特征还包括由词向量表示的语义特征。虽然文献用了非神经特征和非神经网络模型,本文推介该工作的目的在于阐述其端到端的学习模式。端到端学习模式的输入/输出更加直接、合理,能够通过联合学习抽取更全面的特征和减少错误传播。在此基础上,若采用神经网络模型进行端到端学习还能够减少特征工程,这也将是一个亟待学界深度探索的研究方向。

2.1.3.3 融合外部资源的神经网络事件抽取方法

由于ACE05 数据集规模小,且存在较严重的事件类型稀疏问题,因而衍生了一些相关工作以解决 上述问题。传统方法有自动构建大规模事件数据集、引入框架语义学知识库 FrameNet、引入语义资源库 WordNet/HowNet、借助机器翻译对中英文事件抽取语料互译以扩展数据集等方式。现阶段,融合外部资源的神经网络事件抽取方法的研究尝试还集中于构建大规模事件数据集上。 由于神经网络方法依赖于大量的有标记数据,而ACE05 数据集的规模比较小,使得事件抽取遭遇了一定的瓶颈。Liu 等人尝试借助 FrameNet 数据集缓解 ACE05 数据集中的若干类别事件的稀疏问题。研究中通过将 FrameNet 中的框架( Frame) 匹配到 ACE05 定义的事件类型上,从而构建一个基于FrameNet 的新事件识别数据集。首先,基于ACE05训练得到的事件识别模型识别出 FrameNet 中的可能触发词。然后,通过基于概率软逻辑模型 ( Probabilistic Soft Logic,PSL) 的限制条件选择出置信度较高的触发词组成 Event-FN 数据集。Event- FN 数据集和 ACE05 数据集将联合训练,设计得到最终的事件识别模型。Chen 等人通过远距离监督方法构建了大规模事件抽取数据集,从而帮助事件抽取任务的实效提升。研究给出通过 Freebase 构建一个基于Wikipedia 的事件数据集。Freebase 由一系列元数据 ( Compound Value Types,CVT) 组成。每条元数据包括一个类型和一系列 CVT 实例,其中每个实例包括很多论元和角色。因此,每个元数据实例可以被认为是一个事件实例,包含一个事件类型、一组论元及其角色。该工作首先通过统计方法选择Freebase 中每个事件类型的关键论元集合。然后对于 Wikipedia 中每个句子,通过判断其是否包含 Freebase中任一事件实例的所有关键论元来甄别其中是否包含事件。在包含事件的 Wikipedia 句子中,通过统计方法选择出每个Freebase 事件类型的关键触发词。而后借助FrameNet 进行触发词筛选和名词性触发词扩展。最后通过远距离监督方法从 Wikipedia 中获得有标记的事件数据集。构建的大规模事件数据集和 ACE05 数据集将共同训练基于CNN 的事件抽取模型。

Zeng 等人采取一种新颖的思路从 Wikipedia 和 Freebase 中构建大规模事件数据集。和 ACE 评测中通过触发词判断事件发生的模式不同,该次研究认为可以通过是否包含关键论元来判断事件发生与否。同时,也通过统计方法从 Freebase中抽取每个事件类型的关键论元集合。研究又将包含了 Freebase 中任一事件实例的所有关键论元的Wikipedia 句子作为事件抽取正例。该工作还通过时间和语法规则对远距离监督过程进行约束,以期获得更高质量的有标注数据集。Zeng 等人采用2个序列标注模型抽取关键论元和非关键论元。其中,2个序列标注模型均是双向长短时记忆模型( Bi -LSTM) 和条件随机场模型( CRF) 的融合模型。若句子s的论元序列标注结果包含某一事件类型 t 的所有关键论元,则s的事件类型定义为 t。

2.2 主题事件抽取

一个主题事件由多个动作或状态组成,其描述信息通常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架或本体来表示主题事件的基本组成以及各成分间的联系。

2.2.1 基于事件框架的主题事件抽取

基于事件框架的主题事件抽取方法通过定义结构化、层次化的事件框架来指导主题事件的抽取,利用框架来概括事件信息,表达主题事件的不同侧面。框架是一种常用的知识表示方法,可用于描述相关概念的轮廓框架。M. Minsky 在 “A Framework for Representing Knowledge”一文中提出了框架的概念,引起了学者的关注。当人们面临一个新的情景时,会从头脑中已存在的大量典型情景中搜索一个情景来认识新事物,这些典型的情景就是知识框架。例如针对一个会议事件,人们在头脑里自然会想到,会议发生的时间、地点、主办机构、参会者、政府的反映以及会议带来的影响等不同的侧面。事件的侧面在语义上可以进行分离,所以这里的框架结构其实是一种分类体系,用于分隔一个事件涉及的不同侧面。用来描述事件不同侧面的词语为事件的 “侧面词”,事件框架是由 “侧面词”构成的一个分类体系。生成完整的事件框架体系是框架方法的关键,如何提高框架构建的全面性以及自动化程度是学者们研究的重点。

2.2.2 基于本体的主题事件抽取

本体是知识工程和人工智能研究领域的一个重要课题,其目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 (术语) 之间的相互关系。本体的这些特点很好地符合了主题事件抽取的要求。基于本体的主题事件抽取,一般根据本体所描述的概念、关系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息,主要分为3个步骤: 领域本体的构建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。Cheng 等介绍了一种基于本体的模糊事件抽取代理系统。在本体的构建中提出了一种 4 层本体构建模型,分别为 Domain 层、Category 层、Event 层、Extended Concept层。其中 Domain 代表本体所处的领域名称,并由若干个由领域专家定义的 Category 组成; 每个 Category 包含一组事件的集合; Event 层定义了每个 Category 包含事件类型; Extended Concept 层包含事件概念与对象概念,定义了每类事件对应的角色与概念及相应的子事件。将该模型构建的本体应用于新闻事件的抽取,并应用于自动文摘,实验证明该系统能较好地实现中文气象新闻事件的抽取。文献详细介绍一个基于本体的金融事件跟踪体系,并取得了较好的统计结果,印证了通过本体进行金融事件跟踪的可行性及该方法的优势。

综合国内外研究可见主题事件抽取的研究并不成熟,篇章内及跨篇章语义理解技术的缺失,致使信息的有效归并与融合成为瓶颈。如何对事件信息的高效融合,将是主题事件抽取下一步的工作重点。

3 中文事件抽取算法分析

2000 年以来, 对中文进行事件抽取研究主要以基于模式匹配的事件抽取算法和触发词法为主。算法使用频率统计如下:

图2  文献中使用的事件抽取算法占比分布图

实际上, 为了提高事件抽取的效果, 实际应用中存在将两个或两个以上的算法进行组合应用, 即首先使用某算法 ( 如先使用模式匹配法过滤非事件句后再用 SVM 法识别事件句, 使用 KNN 算法提取触发词再用触发词法抽取事件) 进行处理, 再使用其他算法进一步处理以提高事件抽取的准确度。

3.1 事件抽取算法效果分析

表1显示了在所参与调研的文献中,各抽取算法表现较好的领域。模式匹配算法在犯罪信息领域抽取事件的准确率 P 值可达 0. 85;触发词算法在法律领域的综合效果较好,F 值 可 达 0. 8423,准确率P值可达0.7503;CRF、ME、SVM 3个算法中,条件随机场算法(CRF)在个人简历领域取得的效果较好,F 值可达 0.973,其次是ME算法在突发事件领域 F 值和 P 值分别可达 0.8426、0.8568,而 SVM 算法在金融领域抽取事件时,过滤掉一些明显非事件句后,进一步识别事件句P 值 虽 然 达 0.8783,但召回率较低,F值仅为0.6915。除突发事件领域中应用最大熵方法 (ME) 抽取事件为封闭测试外,其余均为开放测试,因此ME算法的开放测试效果可能有所降低。

表1  不同抽取算法表现最好领域对照表

表2  不同领域表现最好的算法对照表

表2 显示了不同的领域中所采用的各种事件抽取算法中,效果较好的事件抽取算法。从中可以看出,在金融资讯事件抽取领域,将模式匹配算法与 SVM 算法组合使用取得的综合效果 ( F = 0.6915) 不及在门户网站、军事领域信息中抽取事件的效果好 ( F = 0.8079、0.8144) ,但准确率 ( P = 0.8783) 却优于上述两个领域的事件抽取 ( P = 0.7859、0.7776) ,即抽取金融资讯事件的查全率较低, 这可能与金融资讯中往往同时报道多个关联事件,部分事件元素缺失影响判别效果的缘故;使用模式匹配方法抽取犯罪信息中的事件虽然也取得了85%的准确率, 但因为采用了封闭测试,因此实际开放测试效果有待考证;触发词方法抽取医疗领域事件的封闭测试综合效果 ( F = 0.5312)不及 ACE 会议及法律事件抽取的开放测试的效果好 ( F= 0.7840、0.8423 ) ,但准确率的差距不太大(分别为0.7396、0.818、0.7503) ,Fu Jianfeng等人采取了KNN 算法提高了触发词的质量,所取得的准确率最好,但查全率也不是很好,法律信息中所含有的动词等触发词相对较明确,因而查全率较高;CRF方法在个人简历与交通信息事件抽取的综合效果及准确率差距都很大,F 值分别为 0.973 和0.5203,这可能是因为个人简历事件相比交通事件的特征模板更容易构 建 的 缘 故;另外,虽然采用最大熵方法(ME) 抽取突发事件信息的封闭测试效果也不错,但仅略高于触发词法抽取法律信息的开放测试效果,因而其实际效果不一定好。

表3  相同领域不同抽取算法 F 值对照表

表3给出了在所参考的文献中采用的各种抽取算法以及它们所取得的效果值,其中在金融资讯、突发事件、医疗、军事、个人简历、犯罪信息、法律、交通信息领域所涉及的 “有效文献”数分别仅为 1 篇, 所以重点分析以门户网站信息和 ACE 会议语料为研究对象的有效文献。抽取门户网站事件信息的研究中,已有文献分别涉及模式匹配、SVM 和触发词方法,其中基于概念首义原、句子语言单位的模式匹配方法取得的效果最好 ( F = 0.8079) ,但概念首义原的思想与触发词思想有异曲同工之处。ACE 会议语料事件抽取的研究中,虽然采用触发词法抽取事件取得的综合效果 ( F = 0.784) 仅略高于模式匹配所取得效果 ( F =0.7785) 、略低于聚类算法的效果 ( F = 0.7976) , 但后两者均为封闭测试。综合门户网站及 ACE 会议语料事件抽取的研究成果,可以发现,触发词方法抽取事件的效果优于模式匹配方法[5]。

3.2 算法时间复杂度分析

算法时间复杂度主要指完成某一任务所需要的时间( 也称所耗费的时间) , 一般而言,算法越复杂,其时间复杂度越高,推广应用的难度越大。但随着计算机硬件性能的大幅度提高,算法的时间复杂度似乎变得不太重要。在本文所涉文献中,大多侧重提高算法的 P、R、F值,很少关注抽取任务的实际耗时情况。事实上,CRF与 SVM 方法的特征规模 ( 向量维度) 均会大大影响运行效率;语义角色标注方法需要句法分析技术,其运行效率因句法分析方法的不同而不同。基本触发词方法由于运算简单,运行效率相对较高,但若结合 KNN 等算法提取触发词,其运行效率将会受到一定的影响。

3.3 前沿联合模型方法

  1. 模式识别+SVM

基于模式识别+SVM的方法,思想主要是在事件句的识别上,提出了基于 SVM 的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器算法使用不同的分类器来识别具有不同语义约束的角色。实验结果表明,多分类器的算法明显优于单分类的算法[6]。

  1. 机器学习+词嵌入

提出了一种在深度学习中集成模式、机器学习模型和词嵌入技术的新的商务事件抽取方法,用于提取在线中文新闻事件。利用词嵌入和语义词典对事件触发字典进行扩展,具有较高的准确性。然后将字典中的触发器特征引入到机器学习分类算法中,以实现更精细的事件类型识别。基于可伸缩模式树,发现的事件类型被用来找到从在线新闻中提取事件元素的最适合模式。实验结果表明了该方法的有效性[7]。

  1. 深度学习+词嵌入

提出了一种用于生物医学事件抽取的多重分布式表示方法。该方法结合了基于依赖的词嵌入和基于任务的特征以分布式的方式作为深度学习模型的输入来训练深度学习模型。最后,我们使用SOFTMax分类器对示例候选进行标记。

结果:多水平事件提取(MLE)语料库的实验结果显示,较高的F分数为77.97%的触发器识别和58.31%的整体相比,最先进的SVM方法[8]。

  1. 递归神经网络

       传统的提取方法通常依赖于外部资源的可用性,或者需要复杂注释的语料库和精心设计的特征。特别是对于英语以外的语言,由于工具和资源的稀缺性,限制了进步。在这项工作中,我们探讨了递归神经网络(RNN)架构从意大利医疗报告的临床事件提取。所提出的模型包括嵌入层和RNN层。为了找到最佳的事件提取配置,我们探索了不同的RNN结构,包括长短记忆(LSTM)和门控递归单元(GRU)。我们还尝试向网络中输入形态句法信息。通过使用GRU网络获得额外的形态句法输入,得到了最好的结果[9]。

  1. 触发词扩展+分类法

     在事件识别阶段,采用一种基于触发词和二元分类相结合的方法;在事件元素识别阶段,采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反不平衡以及数据稀疏问题,取得了较好的系统性能[10]。

  1. BUEES

       传统的事件抽取系统主要基于事件类型识别和事件参与者提取,基于预先指定的事件类型范例和手动注释的语料库。然而,不同的领域有不同的事件类型范例。当转移到一个新的领域,我们必须构建一个新的事件类型范式并从头注释一个新的语料库。这种传统的事件提取系统需要大量的人力,无法广泛应用事件提取。在本文中,我们介绍了一个自底向上的事件提取系统BUEES,它以完全无监督的方式从网络中抽取事件。系统在输入语料库中自动构建事件类型范式,然后继续提取这些事件的大量实例模式。随后,系统根据这些模式提取事件参数。随后,系统根据这些模式提取事件参数。通过一系列的实验,我们展示了BUEES的良好性能,并将其与一个最先进的中文事件提取系统,即有监督事件提取系统进行比较。实验结果表明,在事件类型识别中,BUEES的表现比较好(事件类型识别中,F-measure增加5%,事件参数提取中,F-measure增加3%),但不需要任何人工干预[11]。

  1. 基于语义的中文事件触发词抽取联合模型

针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型。首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例。在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升[12]。

  1. 触发词+SVM

提出了一种用动词驱动的方法从中国网络新闻中抽取5WLH(WHO、What、Whom、 When、Where、How)事件语义信息。如何从中国在线新闻事件的语义信息。首先,通过新闻故事的结构,我们提出一种新颖的算法来提取主题句强调新闻标题的重要性。第二,通过应用基于规则的方法FRET DROWVEL和有监督的机器学习方法(VML),从这些主题句中提取事件事实F.5W1H1。通过考虑汉语动词的配价(非显性短语的显性能力),在自动内容提取(ACE)事件提取中使用了T结构。在ACE 2005数据集上的大量实验证实了它的有效性,并且显示了非常高的可密封性,因为我们只考虑了基于这种方法,我们建立了一个系统——中文新闻事实提取器RCNFE。CNFE对一个包含30000份报纸文档的真实世界语料库上进行了评价,结果表明CNFE能够有效地提取事件事实[13]。

  1. 触发词扩展+机器学习

针对目前中文触发词抽取结果的F值不够理想的情况,选用中文事件语料库CEC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法。

触发词扩展:CEC语料创建一个原始触发词表;通过触发词聚类对原始触发词表进行扩展,得到扩展触发词表;创建一个候选触发词集;计算所有候选触发词的权重,选出权重高的事件触发词。

基于机器学习的事件触发词的抽取主要包括以下几个步骤:1) 用分词工具对中文文本进行预处理,即分句、分词、词性标注,然后,从预处理后的文本中筛选出名词、动词、动名词;2) 选取触发词的自身词性特征及词的上下文特征构造向量空间模型,从而创建训练集获得机器学习模型;3) 用SVM机器学习方法对测试集进行分类。

实验表明,该方法抽取效果比较理想,F值可达到69.7%[14]。

4 已知问题

  1. 底层技术研究不够成熟,导致错误级联。事件抽取对底层的子任务结果有很大的依赖性,但由于实体识别、深层句法分析等底层技术还不成熟,给事件抽取带来了级联错误。并且,目前缺乏对子任务输出结果的评估及矫正技术
  2. 事件抽取系统的领域可扩展性和可移植性不够理想。目前的研究大多是基于 MUC 或 ACE 展开,只针对某个特定领域或几个类型的事件进行研究。系统的应用受到领域的限制,不能够随着领域的变化进行简单快速的移植或扩展;
  3. 语料有待进一步完善。机器学习方法的引入提高了事件抽取系统的可移植性,但由于缺乏大规模的成熟语料库和标准语料,目前该类系统的效果不够理想,由此可见语料的完善是一个亟待解决的问题;
  4. 如何设计神经网络模型以实现多任务联合是一大难点。

5 研究趋势

  1. 进一步提高事件抽取的精度和召回率,改进抽取的方法,加强底层技术攻关,开展对中间结果的可信度评估研究。要使事件抽取技术取得突破,必须改进其所依赖的底层技术;
  2. 跨文档、跨语言的事件抽取研究将更为广泛。目前,事件抽取的水平还局限在对独立文本的处理上,跨文档的研究尚处于探索阶段,随着跨文档语义理解及信息归并技术和多语言文本处理技术的发展,跨文档、跨语言的事件抽取必然成为新的研究热点
  3. 面向开放领域的事件抽取即将广受重视。事件抽取系统的领域可扩展性和可移植性仍将是研究的重点。未来的事件抽取研究将以应用为需求,面向开放领域而不再局 限于某个具体领域,为此需要探究各种方式提高系统的移植性;
  4. 融合外部资源的神经网络方法当前集中于构建大规模数据集,已取得良好效果。由于事件抽取数据集的构建难度、现有数据集的局限和不同应用领域数据的差异,如何有效地借助外部资源进行事件抽取的方法也是一个亟待研究的发展方向。 例如,鉴于语义角色标注任务( Semantic Role Labelling,SRL) 和事件抽取任务的相似之处,借助大规模语义角色标注相关资源辅助事件抽取。利用迁移学习方法解决数据缺失问题也将成为后续具备学术前瞻性的重点研究方向。

参考文献

[1] 薛亚非.面向自然语言处理的深度学习[J].电子技术与软件工程,2018(12):144-145.

[2] 秦彦霞,张民,郑德权.神经网络事件抽取技术综述[J].智能计算机与应用,2018,8(03):1-5+10.

[3] 高强,游宏梁.事件抽取技术研究综述[J].情报理论与实践,2013,36(04):114-117+128.

[4] 郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(02):14-17+38.

[5] 吉久明,陈锦辉,李楠,孙济庆.中文事件抽取研究文献之算法效果分析[J].现代情报,2015,35(12):3-10.

[6] 赵小明,朱洪波,陈黎,王亚强,秦湘清,于中华.基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计,2011,32(07):2348-2351.

[7] Han S, Hao X, Huang H. An event-extraction approach for business analysis from online chinese news[J]. Electronic Commerce Research & Applications, 2018:244-260.

[8] Anran Wang, Jian Wang. A multiple distributed representation method based on neural network for biomedical event extraction[J]. BMC Medical Informatics and Decision Making, 2017:60-66.

[9] Natalia Viani1, Timothy A. Miller. Recurrent Neural Network Architectures for Event Extraction from Italian Medical Reports[J]. Artificial Intelligence in Medicine, 2017:198-202

[10]  赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008(01):3-8.

[11] Xiao DING, Bing QIN, Ting LIU.自底向上事件抽取系统(英文)[J].Frontiers of Information Technology & Electronic Engineering,2015,16(07):541-553.

[12] 李培峰,周国栋,朱巧明.基于语义的中文事件触发词抽取联合模型[J].软件学报,2016,27(02):280-294.

[13] Wang Wei, Zhao Dongyan, Zou Lei, et al.Extracting 5W1H event semantic elements from Chinese online news[C].Tiergartenstrasse Verlag,2010,6184  LNCS: 644 -655

[14] 轩小星,廖涛,高贝贝.中文事件触发词的自动抽取研究[J].计算机与数字工程,2015,43(03):457-461.

 

 

猜你喜欢

转载自blog.csdn.net/muumian123/article/details/81746583
今日推荐