论文阅读:A Survey of Open Domain Event Extraction 综述:开放域事件抽取

A Survey of Open Domain Event Extraction

综述:开放域事件抽取

摘要

互联网和社交媒体的发展促使文字信息交流和共享的增加。每秒生成大量文本数据。为了从非结构化文本语料库中挖掘有用和结构化的知识,已经创建了许多信息提取系统。这些系统的关键方法之一是开放域事件提取,其目的是在没有任何预定义域假设的情况下提取有意义的事件信息。结合一些最近很有希望的技术,包括问题答案配对,实体链接,实体共指和深度学习,开放域提取的结果似乎得到了改善。在本次调查中,我们将首先简要介绍事件提取的流程。然后,我们将对最近有希望的开放域事件提取方法(包括对一些最新论文的研究)进行相对详细的描述。

1.引言

近年来,由于Internet和移动访问的普及,文本数据量迅速增加。为了从这些文本数据中获得有趣,具有代表性和人类可理解的知识,已创建了许多数据挖掘技术。来自社交媒体和互联网的大多数文本数据在机器视图中都是非结构化的,仅由某些人类可读的自然语言组成[1]。
因此,机器或计算机很难自动从这些数据中学习和提取底层结构。这些是一些可以为人类提供有用服务的相关应用程序的主要困难,例如信息检索系统和信息提取系统。事件提取是信息检索和信息提取系统中最有用的技术之一。它已经研究了很长时间,但仍然是一项艰巨的任务。提取的目的是检测事件的类型并由机器自动从人类可读的文本中提取具有不同角色的自变量[6]。例如,给定一个句子,如图1所示,Siebel Center中的学生上个月销毁了一台计算机,事件提取系统需要检测到销毁触发的事件Destroy,并可以识别句子中自变量的相应作用:学生(Role =驱逐舰),Siebel中心(角色=位置),计算机(角色=目标)和上个月(角色=日期)。好的事件类型和参数角色提取可以极大地帮助信息检索和信息提取系统。
在这里插入图片描述
尽管如此,对于机器而言,自动事件提取仍然是一项艰巨的任务。为看不见的事件提及和参数的相应角色分配正确的类型相对困难。另外,许多事件具有复杂的嵌套结构[2]。这给自动事件提取带来了更多障碍。例如,有时危机事件可能导致调查事件,然后导致宣布事件,这难以确定确切的结构[2]。即使在生物学等领域,某些生物分子事件也具有嵌套和复杂的结构。许多方法或方法已用于事件提取,例如使用预定义的事件类型和架构。但是由于事件类型的复杂和嵌套结构以及未提及的事件提及,这些方法在键入触发词和参数方面的覆盖率非常低。
近年来,出现了一些新方法,并显示了用于海量文本语料库的自动信息提取的有希望的解决方案,例如使用阅读理解和问题回答,深度学习技术(特别是卷积神经网络)。这些最新方法的更多细节将在第4节中介绍和检查。与此同时,我们还在探索一个新的方向,该方向依赖于以前与异构信息网络上的图挖掘相关的工作。为了正确地构建网络,我们在实体链接/接地,共参考解析和聚类领域中调查了文献,以帮助我们从原始数据构建高质量且密集的信息网络,从而满足执行开放域的要求事件提取。相关详细信息将在第5节和第6节中介绍。
在本调查文件中,第2节将介绍不同方面的事件提取类型。然后,在第3节中,我们将介绍一些现有的事件提取知识库,以及自动生成高质量事件训练数据以进行事件提取的技术。此外,在第4、5和6节中,将对各种有前途的事件提取方法进行一些更具体的评估,并为开放域事件提取提供一些有用的技术。在第4、5和6节中讨论的那些方法和技术主要是一些当代有前途的方法,例如在开放域事件提取任务中利用问答对和一些深度学习技术。最后,我们将对事件提取进行总结,并对本调查论文进行总结。

2.事件提取的类型

有几种标准来定义事件提取的类型。在这里,我们总结了区分事件提取类型的两种主要标准。首先,在第2.1节中讨论,准则是按目标区分事件提取,无论事件提取旨在应用于开放域还是特定域。其次,区分标准基于不同的方法,在2.2节中进行了总结。在该部分中,我们将事件提取方法分为三种:数据驱动方法,语义驱动方法和混合驱动方法[1]。

2.1按方法提取事件的类型

事件提取技术涉及各种方法和模型的利用。但是,某些事件提取方法在其建模上具有相似的启发式方法和方法,我们可以将相似的方法和方法聚类在一起。因此,在本节中,我们主要将事件提取的类型分为三种主要方法。第一种是使用定量统计模型的方法,该模型与文本数据的统计模式更加紧密相关;同样如[1]中所述,该方法通常称为数据驱动方法。第二种是一种语义驱动的方法,该方法结合了从语言,语义和词汇知识中衍生的模型。最后一种是混合驱动的提取方法,通常将第一种方法和第二种方法结合起来[1]。
数据驱动的方法已广泛用于事件提取领域。正如我们所说的数据驱动方法一样,通常在尝试在事件提取中查找基于数据或基于全局的事件模式时采用统计模型。例如,在论文“从博客条目中发现邻居区域中的易失事件” [5]中,他们首先将事件提取视为某些主题和子主题提取,然后使用诸如z得分显着性检验之类的统计方法对其进行排名主题或副主题[5]。这些是纯数据驱动的方法。即使它们已经被广泛使用,它仍然有一些局限性。例如,即使模型提供了良好的统计结果,纯统计方法也无法在某些关系之间合并信息,并且可能失去语义含义。总之,数据驱动的方法通常对事件提取的数据具有相对全局的看法,但可能会丢失一些位置信息,例如句子中语义的一部分。
除了数据驱动方法之外,事件提取任务中通常还使用语义驱动方法。与数据驱动方法中使用的统计方法相比,该方法可能会失去一些语义含义,而语义驱动方法几乎是基于词汇知识和更多的人类可解释方法,这些方法在事件提取过程中主要关注相对局部语义模式,这些模式保留了大多数语义含义。例如,在使用概念识别器的高精度生物事件提取[3]中,一些相关的本体[13]用于支持事件提取。与数据驱动的方法相比,这些语法和语义元素的使用可以很好地为人类解释,并且需要更少的数据进行引用或培训。但是,需要许多先验知识和精力来指定那些语法和语义元素,这些元素可能相对昂贵且耗时[1]。同样,某些局部的句法和语义模式在首次指定后无法很好地全局整合,从而导致对这些句法和语义模式进行进一步调整的其他需求[1]。此外,在某些情况下,以低成本生成那些语义和句法模式将是不现实或困难的。
在介绍了数据驱动方法和语义驱动方法之后,我们发现它们具有不同的优缺点。由于它们的优缺点在不同的领域,可以将它们组合在一起并相互增强事件提取的最终结果。因此,出现了第三种方法,它结合了数据驱动方法和语义驱动方法的优点,并且比仅使用单一方法的方法通常提供更好的事件提取结果。根据其属性,我们称其为混合驱动事件提取方法[1]。例如,在用于事件提取的零热转移学习论文中,他们利用了诸如FrameNet之类的一些本体,还结合了一些生成良好事件提取结果的统计模型。总之,当代方法通常采用第三种方法,我们将在后面的部分中给出更具体的示例和评估。

2.2按目标分类的事件提取类型

通常应将事件提取应用于医疗,生物,金融和社交媒体等不同领域。事件提取任务的不同目标导致事件提取技术和方法的不同利用和创建。因此,在本节中,我们主要将事件提取分为两类:开放域事件提取和特定域事件提取。
许多事件提取已应用于某些特定领域,例如生物学,金融和医学。在这些领域中,事件提取文本数据的目的通常与他们自己的专业术语密切相关。因此,在许多特定领域的事件提取中,一些参考本体或知识库被广泛用于帮助事件提取。在某些事件提取文献中,他们使用相应的本体。例如,在带有概念识别器的高精度生物事件提取中,他们使用称为OpenDMAP的系统,这是一个由本体驱动的生物医学概念分析系统,结合了几种社区共识本体,以支持他们进行生物事件检测和论点识别的方法。 [3]。现有的本体,特定的领域知识库和语义模型可以大大支持事件提取。即使将在特定的域中进行某些更改或创建一些新的事件类型,将这些更改并入事件提取模型(例如对相应的本体或语义模型进行修改)也相对容易。因此,它们仍然可以为事件提取提供重要支持。
与将事件提取应用于具有引用本体和特定有用知识基础的特定域的目标相比,许多项目的目标是在非特定或开放域上进行事件提取。例如,通常将社交媒体上的事件提取和大量嘈杂的文本语料库归类为开放域提取。即使某些知识库也可以提供帮助,例如Wikipedia [11]。但是,由于我们要应用开放域事件提取的文本嘈杂,复杂,甚至与任何知识库都没有关联,因此这些知识库不能发挥与特定领域相同的关键作用。例如,在来自Twitter的开放域事件提取文献中,他们不使用特定的知识库或本体,因为Twitter中的推文很嘈杂,并且包括所有知识库中不存在的大量术语[4]。总之,缺少现有的参考本体以及大量复杂的基础事件类型和架构,导致从大型且嘈杂的文本语料库中提取开放域事件更具挑战性,但在将来可能会更有用。
由于海量和相对嘈杂的文本数据(例如来自社交媒体的帖子和来自众多网站的评论)的数量迅速增加,因此在这些开放字段上进行事件提取变得更加有趣,这特别需要开发开放域事件提取技术。在本调查的以下各节中,我们将对几种对开放域事件提取有用或有希望的当代方法进行介绍和评估。

3.数据和本体

文本数据数量的增加一直在促进事件提取技术的发展。事件提取的许多模型(特别是针对开放域的模型)都是基于对少量手工标记数据的监督学习而建立的。手工标记的数据具有三个缺点:生产成本高,事件类型的覆盖率低以及大小受限制。因此,在手工标记的数据上训练的事件提取监督模型很难为知识库人群提取大规模事件。为了利用大量现有的未标记文本数据,人们提出了自动生成标记数据以从知识库中提取事件的方法。在本节中,我们将首先介绍有用的事件提取数据和本体的资源。然后,我们将讨论两种生成标记数据以进行事件提取的方法。第一个通过识别关键参数和触发词来生成数据,第二个仅通过识别关键参数来生成数据。

3.1事件提取的数据资源

有许多现有的知识库或本体可用于开放域事件提取任务。为了生成用于开放域事件提取的标记数据,不仅单词知识是必要的,而且还需要语言或语义知识。这是一些众所周知的本体或知识库,用于生成或用作标记数据用于事件提取:
在这里插入图片描述在这里插入图片描述

3.1.1 FreeBase:

Freebase是一个语义知识库。它使用复合值类型(CVT)将多个值组合为一个值。如图2和图3所示,business.acquisition是CVT条目的类型。有许多business.acquisition实例,因此此实例具有唯一的ID m.07bh4j7。收购的公司,收购的公司,形成的数据和部门是business.acquisition CVT的角色。 Remedy Corp,BMC Software,2004和Service Management Business Unit是实例的值。为了利用FreeBase作为生成标记数据的资源,通常将CVT视为事件,将CVT的类型视为事件类型,将CVT实例视为事件实例,将CVT中的值视为事件中的参数,并将CVT的角色视为事件中参数的角色。
在这里插入图片描述

3.1.2 FrameNet:

FrameNet是一种语言资源,用于存储有关词汇和谓词自变量语义的信息[23]。 FrameNet的每个框架都可以视为事件类型的语义框架[24]。每个框架都有一组带有POS标签的引理,可以引出该框架,称为词法单元。例如,在下面显示的句子中,bake.v是FrameNet中烹饪的词汇单位创建框架。然后可以将此类框架映射到FreeBase中的Cooking创建中,然后用于标记文本数据。
在这里插入图片描述

3.1.3维基百科:

维基百科作为最大的,半结构化的和广泛的知识基础之一[14],可以帮助实体链接,从而支持实体提取。如表1所示,Wikipedia的最大优势之一是它是一个基于多语言的知识库,具有数百种文章的语言,并且每种语言的数量都在快速增长。因此,诸如wikification的某些技术对于事件提取可能非常有用,这些事件可以将相同含义实体的提及链接到特定的提及,然后增强开放域提取结果。在第5节中将讨论有关使用Wikipedia作为事件提取的辅助方法的更多详细信息。

3.2自动生成带标签的数据以进行事件提取

当前许多有关开放域提取的有前途的方法通常需要大量的标记数据,例如一些深度学习方法(将在第4节中讨论)。以下是一些最近的方法,这些方法可以自动并以相对较高的精度生成用于事件提取的标记数据,这可以在某些模型中极大地帮助开放域事件提取。

3.2.1通过识别触发词和关键参数来生成用于事件提取的标记数据[6]

在这种方法中生成用于事件提取的标记数据的目的是生成涉及标记触发器,事件类型,自变量及其角色的数据。例如,图4显示了用于事件提取的带标签的事件提及示例。引发单词是事件类型为“攻击”的触发器。句子中带下划线的单词是此事件的参数。
在这里插入图片描述

现有的有关关系提取的远程监管的工作假设,如果两个实体在已知知识库中具有关系,则所有提及这两个实体的句子都将以某种方式表达该关系。但是,这种远程监视在事件提取上效果不佳,因为它有两个问题。第一个是现有知识库中没有给出触发器。第二个问题是,通常在多个句子中提及特定事件实例的参数,因此仅使用知识库中的所有参数来标记返回的句子将不会生成足够高质量的句子作为训练样本。
为了解决在对事件提取进行远程监管时遇到的问题,有一种方法可以联合使用世界知识(FreeBase)和语言知识(FrameNet)。这是通过这种方式生成标记数据的管道:
•选择关键参数。
•仅使用关键参数来标记事件并提取触发词。
•使用外部语言知识资源(FrameNet)过滤嘈杂的触发词并扩展更多触发条件。
•使用“远程监控”来自动标记训练数据。
整个流程的第一步是关键参数提取。论文[6]将关键论点定义为在事件中起着不可或缺的作用的论据,并在区分不同事件时作为重要线索。例如,论证配偶是婚姻事件中的关键论证,而不是时间和地点。为了衡量一个论点的重要性,论文[6]引入了一种称为关键率的度量,它由两个术语组合:角色显着性和事件相关性。角色显着性反映了表示给定事件类型的特定事件实例的自变量的显着性。换句话说,在给定事件类型的情况下,如果一个参数A倾向于使用一个参数A来区分一个事件实例,则它比另一个参数B更为显着。事件相关性反映了可以使用参数来区分不同事件类型的能力。换句话说,如果参数A仅出现在特定的事件类型中,则参数A具有较高的事件相关性。提取键参数的一般想法非常简单:对于每种事件类型,计算该类型下所有参数的键率。然后针对每种类型,选择前K个参数作为关键参数。
第二步是触发字检测。文献[6]使用斯坦福大学的CoreNLP工具将原始Wikipedia文本数据转换为带有NLP注释的句子序列,并在FreeBase中选择包含事件实例的所有关键参数的句子作为表达相应事件的句子。然后论文[6]使用这些选择的句子来检测触发词。总体思路类似于TFIDF。动词倾向于表达句子中事件的发生。如果一个事件类型的带标记句子中的一个动词比其他动词出现的时间更长,则该动词往往会触发此类事件。但是,如果动词出现在每种事件类型的句子中,例如,动词触发特定事件类型的可能性就会降低。这样,在此步骤中可以为每种事件类型提取一些触发词。
第三步是触发词过滤和扩展。尽管在第二步中提取了一些触发词,但整个触发词集首先是不完整的,其次是包含一些嘈杂的触发词。触发器词集不完整,因为它仅包含动词触发器。例如,有一些名义上的触发因素(例如婚姻)不在触发词集中。过滤嘈杂的触发词并扩展非动词触发词的一般想法是使用词嵌入将FreeBase中的事件映射到FrameNet中的Frames。例如,appoint.v是FrameNet中的“约会的词法单位”。可以将其映射到FreeBase中的people.appointment事件。这样,论文[6]通过去除一些动词来完成过滤,并通过在映射帧中使用具有高置信度的名词来完成扩展。
第四步是自动标记数据生成。此步骤有两个假设。首先,对于句子中的事件,FreeBase中的所有关键参数和相应的触发词都表示事件。其次,在该句子中出现的论点很可能在该事件中扮演相应的角色。基于这两个假设,我们可以使用Soft Distant监督方法来生成数据。

3.2.2仅通过识别关键参数来生成用于事件提取的标记数据

传统的事件提取方法需要触发词提取并分配事件类型。例如,在图2中,提取了出售的触发词,然后为其分配了business.acquisition类型。但是,本文[7]认为,确定事件类型并不是必不可少的。尽管事件触发器很有用,但并非总是需要明确捕获它们。几个关键参数一起也暗示事件类型。如图2和3所示,句子中的三个实例值(分别为Remedy Corp,BMC Software和2004)可以分别映射到事件的三个角色。不仅每个实例值都描述了句子中自变量的角色,而且它们还全面定义了business.acquisition事件。
由于此方法仅识别用于生成标记数据的关键参数,因此数据生成的流程比3.1.1中讨论的方法更简单:
•从CVT表条目中识别关键参数
•根据现有结构化表或列表生成标记数据。
第一步是提取关键参数。与3.1.1中的key参数的定义类似,此处的key参数被定义为在一个事件中起重要作用的参数,这有助于与其他事件区分开。然而,本文[7]使用了另一种方法来确定一个参数是否为关键参数。第一个度量是重要性得分,用于度量论点的重要性。对于事件类型的参数,重要性得分定义如下:
在这里插入图片描述
是实例数(事件提及),在CVT表中,count(arg)是该参数出现在CVT表中所有CVT类型中的次数,而count(cvt,arg)是在所有表中包含该参数的cvt实例的数量。其次,本文[7]认为与时间有关的参数对于确定事件类型很有用,因此它始终将与时间有关的参数包含在关键参数集中。
在这里插入图片描述

其次,论文[7]从生成的数据集中删除句子,其中两个任意关键参数之间的依赖距离大于2。两个关键参数之间的距离定义为依赖分析树中的跃点数。例如,如图5所示,论点伊丽莎白二世和菲利普亲王之间的距离为1。通常,关键论点选择的策略可总结如下:
•计算重要性分数并选择重要性最高的上半论点分数。
•始终选择与时间相关的参数作为关键参数集。
•从生成的数据集中删除其中两个关键参数之间的依赖距离大于2的句子。
第二步是生成训练数据。论文[7]采用了现有的结构化表或列表,这些表或列表以类似于FreeBase CVT表的方式进行组织。此步骤分为两个阶段。第一步是确定该类型内每个条目的关键参数。一般原理是产生一组用于数据标记的规则,其中每个规则都包含结构化表条目给出的事件类型,键参数和非键参数。此外,本文[7]使用别名信息来匹配具有不同表面名称但引用同一实体的两个参数。例如,Microsoft和MS是不同的表面名称,但是它们指的是同一家公司。第二阶段是标记目标数据集中的每个句子。总体思路很简单:遍历生成的规则集中的所有规则,并检查目标句子是否包含规则指定的所有关键参数。
尽管本文[7]介绍了一种通过识别较少信息来生成标记数据的方法,但它也有一些局限性。第一个限制是该方法依靠结构化表或列表而不是原始文本数据来自动标记文本。第二个局限性是,可以通过对目标句子引入代词解析和实体共指解析来提高这种方法的性能,我们将在以下各节中进一步讨论。

4. 当代方法评估

在本节中,我们将主要介绍和评估一些当代有前途的开放域事件提取范例。我们将根据每个模型的不同范式和优缺点进行评估。

4.1通过触发器聚类提取事件架构

在文本挖掘和信息检索中,事件提取始终是一项重要的任务。现有的事件提取方法之一是ACE,它通过根据潜在用户的需求手动定义事件模式来提取事件。图6的左侧显示了ACE中的事件模式。但是,这样的过程非常昂贵,因为消费者和专家需要在指定事件类型和参数角色之前检查大量数据。此外,他们需要为架构中的每种类型编写注释准则。文献[8]介绍了一种新的事件提取方法,如图6的右侧所示。要从句子中提取事件,首先要提取句子中的触发词和相应的自变量。对于每个触发词,将其聚类并将聚类名称用作事件类型。然后,它根据事件类型分配参数。
这种方法中最重要的任务是触发器的表示。基本上,触发词表示为分布向量。此外,有两个词嵌入准则。第一个是在相似的上下文中发生并具有相同含义的事件触发器往往具有相似的类型,因此触发词的分布向量应包括其自己的语义信息。第二个是触发器类型取决于其自变量,其作用以及与上下文相关联的其他单词,因此触发器词的分布向量还应包括其自变量语义信息。为了获得论点语义信息,本文[8]使用语义关系来指定相关上下文词的分布语义如何对整体事件结构表示做出贡献。
以下是生成集群,找出每个集群参数并为每个集群命名的一般步骤。
第一步是识别候选触发器和参数。要识别触发器,首先要考虑由WSD分配了OntoNotes含义的所有名词和动词概念作为候选事件触发器。与FrameNet中的言语和名词词汇单元都匹配的其余概念被视为候选事件触发器。通过这种方式,可以确定一些名义上的触发因素,例如结婚和结婚。为了识别每个触发器的参数,论文[8]使用抽象含义表示(AMR)来识别所有参数。
第二步是在分布向量中表示触发器和参数。首先应用WSD在WordNet中将每个单词链接到其含义。然后将WordNet感知输出映射到OntoNotes感知。对于每个触发候选者,将其映射到OntoNotes感觉并学习每种感觉的独特嵌入。通常,通过连续跳过语法模型从大型数据集中学习单词嵌入。对于论点,本文[8]对论点使用了一般的词法嵌入。
第三步是事件结构的组成和表示观点。对于每个事件触发器,应用一系列组成函数来生成触发器事件结构表示。每个合成功能特定于语义关系,并且功能在嵌入空间中的向量上进行操作。对于每个参数,其表示形式都是作为副产品生成的。第四步是使用联合约束聚类框架对参数和触发器进行聚类。触发器有一个假设,即如果两个触发器参数具有相同的类型和角色,则它们更有可能属于同一类型。因此,本文[8]使用约束函数来强制相互依赖的触发器和自变量具有相干类型。对于聚类算法,本文[8]设计了一种联合约束聚类方法,该方法基于约束条件迭代产生新的聚类结果,以获得聚类结果。
在这里插入图片描述

最后一步是命名触发器的每个集群和触发器的每个参数。文献[8]通过操作知识库中含义表示和语义角色描述之间的映射解决了这个问题。

4.2深度学习方法

近年来,许多深度学习算法(包括各种神经网络)也影响了开放域事件提取领域。具体来说,在创建和开发了向量空间中某些有效的词表示算法[15]之后,即使以前几乎大部分用于计算机视觉的卷积神经网络也可以用于开放事件提取。这些深度学习方法还为事件提取提供了许多有希望的解决方案。接下来,我们主要分析神经网络在开放域事件提取任务中的两种典型用法。即使这两种方法使用其他方法(例如,问答式),方法的核心还是使用深度学习技术。

4.2.1基于递归神经网络的方法

考虑到关系是预定义的,传统的关系提取系统可以从非结构化语料库中提取关系。火车提取模型的两种主要方法是众包[1]和远程监管[2]。但这对于未预定义的关系是无能的。为了解决这个问题,论文[9]采用了一种替代方法,它结合了阅读理解领域的最新进展,并证明该方法可以高精度地推广到已定义的关系类型,并且能够识别一些看不见的关系。类型。本文介绍的主要思想可分为以下几点:
•前提条件(本文显示的事实):通过为每个论证设计一个或多个自然语言问题,关系提取可以简化为回答简单的阅读理解问题。插槽。
•最近的阅读理解技术(主要是神经网络)可以扩展到学习关系模型。
•对于给定的关系模型,可以将远程监督与设计的众包问题结合使用,以产生大量有效的培训集。
•零击学习方法可用于处理仅在测试时指定的新关系类型,而未提供带有标注的训练示例。
给定一个关系类型R(x,y),其中R是一个关系,x,y是与关系R相关的实体。可以构造参数化的自然语言问题qx,这样一旦实体x和其中提到x的文本被提及给定y可以查询为qx或null的答案(这表明这种关系R不存在)。下图显示了一些实际示例。
现有的阅读理解技术通常在给定文本中始终存在答案的假设下提出问题。但是这种假设通常在关系提取上下文中不成立。因此,有必要扩展现有的阅读理解模型以指示空/空答案。作者从原始的BiDAF递归神经网络模型开始,该模型分别输出潜在起点和终点位置的置信度得分。通过对一个问题的所有可能答案形成串联置信度分数向量,然后通过Softmax,可以将置信度分数向量转换为伪概率向量psand pe,这表示答案在位置s处开始并在位置e处结束的概率。答案的可能性是,以s开头并以e结尾的文本仅仅是ps吗? pe(其中?表示Hadamard产品)。然后,作者在psand pe的末尾附加了一个偏项b,以说明答案为空/空。这样,可以将概率为空/空的答案表示为ps?pe,其中s == e。使用偏差项,模型对原始置信度分数变得敏感,但可以进行每个示例的决策,然后可以设置全局最小阈值pmin来进一步确定问题是否没有答案。
进一步确定问题是否没有答案。考虑关系提取中的空位填充挑战,给出关系R,实体e和上下文句子s,目标是找到一个空集或a的集合,使得R(e,a)对于所有in都成立。集合。通过阅读理解,可以通过假设e的位置为变量x来构造模板问题q,然后可以使用q查询关系R中可以使用的a和每个e。例如,考虑关系职业,实体史蒂夫·乔布斯和史蒂夫·乔布斯这句话是美国商人,发明家和工业设计师。问题q x是做什么工作的?可用于所有相关实体e,例如史蒂夫·乔布斯谋生了什么?此过程定义为架构查询,本质上来说,每个实体单独执行的效率要高一个数量级,因为可以同时自动注释所有实例。但是,由于这样的表述将暗含地鼓励注释者找出其背后的语义,因此,通过对附加语句进行采样并用新实体e实例化每个问题模板来添加附加验证阶段。这些额外的句子被要求给注释者以验证先前的架构查询结果。
在零射场景中,对于以前看不见的关系R(n + 1),可以首先将其查询为问题qx,然后使用每个可能的实体ex实例化为具体问题。通过训练后的阅读理解模型得出的每一个成功答案都会导致一个非空答案ax,并提取新关系R(n + 1)(ex,ax)。

4.2.2基于卷积神经网络的方法

本节我们主要介绍基于CNN和零发散学习的论文[10]。从非结构化文本数据来看,许多传统的受监督方法通常不具有处理新事件类型的能力,因为新事件类型意味着无法为旧事件使用注释。具体而言,这些方法始终将事件提取作为分类问题,仅对输入事件提及和注释事件提及之间的相似性对特征进行编码。模型中的事件类型和参数角色扮演强制限制的原子符号角色。但是,在本文中,作者提出了一种新方法,可以帮助解决这种情况下的问题。
他们发现有趣的是,事件类型和事件提及都可以用某种形式的结构表示。例如,如果我们用“抽象含义表示”结构来表示每个事件提及,而用“实体关系”实体结构来表示事件类型,则可以看到事件提及的结构与事件类型之间存在关联。其事件类型中的事件提及共享相似的结构信息。类似于理论“事件结构的语义可以被概括并以系统且可预测的方式映射到事件提及结构” [22]。因此,他们采取的方法主要是将每个提及映射到本体中语义上最接近的事件类型。
实施思想是零热学习。 ZeroShot Learning是一种技术,当没有足够的训练标签供某些标签使用,而该训练标签适合事件提取情况时,它可以解决分类问题。在计算机视觉中,通常在使用ZeroShot学习时,图像和标签分别映射到多维矢量空间,然后学习回归模型以预测给定图像的看不见的标签。因此,对于事件提取,他们将带有注释事件提及的事件类型视为可见类型,将其他事件类型视为看不见类型,利用神经网络架构通过最小化事件类型之间的距离来共同学习并将二者的结构表示映射到共享的语义空间中。相应的事件提及。如果看不到事件提及,则将其结构首先投影到语义空间中,然后为事件类型分配排名最高的相似度值。
对于这种方法,主要有两个优点:第一个优点是无需额外的注释工作即可将知识从现有可见类型转移到不可见类型。第二个问题是,一些现有的本体提供了广泛的事件类型,这也扩展了使用此方法进行提取的范围。以下是该方法的总体流程:
•给定句子s,基于AMR解析(如表2所示),首先确定触发器和参数,并构建一个结构St。每个对象都有一组元组,例如(调度- 01,:ARG0,中国)。对于每个AMR关系,我们可以使用矩阵来表示它。
•对于每个事件类型y,还构造类型结构Sy,使用(运输人,目的地)等将每个类型和参数组合到张量中。
•使用共享的CNN通过最小化语义距离来生成事件提及表示VStand事件类型表示VSy。其中对应的事件类型和事件提及。因此,在联合映射之后,每个提及都应最接近其注释类型。
•训练之后,我们将传入的新事件提到我们可以将其投影到语义空间中,该空间可以找到其最接近的事件类型。
候选触发器和自变量的识别基于AMR解析,并应用词义消歧工具来区分词义并将每种词义链接到OntoNotes。
对于每个候选t和类型y,基于AMR解析和定义的角色并以类型为根,构造结构Stand Sy。每个结构都由一个组的元组。以下是将关系的语义合并到每个元组的两个词中的两种方法。以下是有关如何表示向量空间中两个结构的详细信息:
•事件提及结构。对于事件提及结构中的每个元组u =(w1,λ,w2),使用矩阵表示每个AMR关系,并将AMR关系λ的语义与w1和w2组合为:Vu = [V0 w1; V0 w2] = f( [Vw1; Vw2]·Mλ)其中Vw1,Vw2∈Rd是单词的矢量表示。 [; ]表示两个单词向量的串联。 Mλ∈R2d×2表示AMR关系λ的矩阵表示。 Vui表示元组u [10]。
•事件类型结构。对于事件类型结构中的每个元组u0 =(y,r),其中y,r分别表示事件类型和参数角色。因此,使用单个张量表示隐式关系,Vu0 = [V0 y; V0 r] = f([Vy; Vr]·U [1:2d]·[Vy; Vr]),其中Vy,Vrare对应词向量。 U [1:2d]∈R2d×2d×2dis是一个三阶张量,其中包含隐式关系[10]。
在我们可以用向量表示结构之后,我们可以创建适当的成本函数,然后将其用于训练共享权重卷积神经网络,从而进行联合事件提及和类型标签嵌入。
在这里插入图片描述

将事件提及的每个参数映射到特定角色类似于先前的联合事件提及和类型标签嵌入。例如,中国⇒代理商。给定一个触发词t和候选参数a,我们首先得到Sa =(u1,u2 …),这是一条连接t和a并包含p个元组的路径[10]。与上一部分类似,我们可以将角色和触发器类型结合在一起,并训练相似的共享权重CNN。
给定一个新的事件提及t0,首先将其提及结构计算为St0,然后根据训练过的所有事件类型结构表示SY = {Sy1,Sy2 …}。根据相似度得分对所有事件类型进行排名,并注明t0。 y y(t0,1)= argmaxy∈Ycos([Vt0; VSt0],[Vy; VSy]),因此我们可以将适当的事件类型分配给提及。
确定类型之后,对于每个候选参数,采用相同的排名函数,以从为该类型定义的角色集中找到最合适的角色。
本文提出了一种有用的且相对新颖的方法,用于开放域事件提取[10]。首先,可以使用当代方法将关系和类型结构转换为高质量的较低空间向量。其次,我们可以在零击学习中使用这些转移的结构,即使没有训练示例,也可以提供更好的结果。第三,事件提取中的不同结构可以与共享权重的CNN一起训练。这些想法将对当前在开放域事件提取中利用零击和神经网络的方法有所帮助。深度学习方法的主要缺点之一是,它需要相对大量的训练数据。因此,如果可以利用我们在3.2节中提到的技术来扩充训练数据,则进行训练;结果可能会更好。

4.3零拍学习

在第4.2节中介绍的两篇论文都使用零拍学习。这是一种相对较新的技术,可以在没有足够的训练数据可用于某些标签时解决分类问题。由于零散学习通常是通过深度学习技术来实现的,因此我们将零散学习的主要部分放在第4.2节中。

4.4模式查询

在4.2.1节提到的论文[9]中,使用众包技术模式查询将先前存在的关系提取数据集转换为阅读理解数据集,并通过创建模板化问题提供更有效的注释。这有助于我们通过最新的阅读理解框架有效地执行开放域事件提取。更详细的内容在第4.2.1节中讨论。

5. WIKIFICATION

Wikification,通常称为Wikipedia歧义消除(D2W),是识别文本中的概念和实体并将其歧义消歧到相应Wikipedia标题页的过程。由于Wikipedia的全面性,wikification是实体链接最常用的方法之一,因此我们在这一领域进行了调查,希望它可以用于开放域事件提取中。在本节中,我们研究了wikification中的著名论文[19],该论文简要总结和改进了D2W中的传统方法。
在给定上下文中消除实体歧义一直是自然语言处理中的一个基本问题。 Wikipedia作为一个越来越全面的知识库,已成为歧义消除(通常称为维基化)的流行目标,因为它的链接结构在歧义消除过程中也可以用作信息。传统的主要方法主要分为两类:局部方法或全局方法。

5.1本地方法

在本地方法中,每个提及都通过使用共同特征(例如给定文档与每个候选Wikipedia歧义消除页面之间的文本相似性)来分别消除歧义。计分函数phi旨在反映候选标题(t j)是每个提及(m i)正确消除歧义的可能性。然后尝试将其解决为使此类可能性最大化的优化问题。经典作品涉及内核支持向量机,词汇重叠功能和将超链接信息作为基础事实的朴素贝叶斯分类器。 (更改了t j和m i)

5.2全局方法

全局方法是基于以下假设而得出的:如果同一文档中的所有提及均正确消除歧义,则这些歧义将趋于形成具有一定程度连贯性的一组相关概念。因此,将一个附加术语添加到本地方法评分功能中以说明全局一致性。但是使用新术语时,原始优化问题将变得难以处理,并且通常会生成近似消歧上下文,然后定义成对的psi术语以解决所生成上下文中的语义相关性以简化问题。生成这种近似值的常用方法是利用从维基百科链接图中获得的成对相关性。在生成歧义消除上下文和定义语义相关性方面,有两种经过充分研究的方法。一方面,Milne和Witten [20]通过采用输入文本中所有明确的表面名称的集合来定义近似歧义上下文,并且将标题相关性计算为NGD(归一化Google距离)。这种方法有其局限性,因为它依赖于输入文档/文本中明确表述的存在,这通常不是一个全面的假设。另一方面,Cucerzan [21]使用文本中所有可能的命名实体消歧,并基于类别和传入链接的重叠来制定标题相关性。但是这种方法也带来了一个缺点,因为它不可避免地将不相关的标题包含在近似消歧上下文中,从而产生了噪音。

5.3GLOW

作者提出了一个利用本地和全局特征的两阶段优化框架。在第一阶段中,对排名者进行培训,以为实体提及生成顶级的非空消歧候选者。然后在第二阶段中使用链接器,以确定该实体应消除歧义的候选标题或为null。为解决以下三种情况中的一种,专门处理了空可能性:1)查询的提及没有相应的Wikipedia页面,2)查询的提及确实具有相应的Wikipedia页面,但不包括在候选列表中,并且3)排名者做出了完全错误的决定,选择了错误的歧义消除。链接器和排序器都被训练为线性SVM。

5.4Ranker

使用了Ranker Wikipedia超级链接,并且作者进一步利用了由爬网版Wikipedia计算出的锚标题索引。每个不同的超链接锚文本都映射到其目标Wikipedia标题。为了提高效率,使用浅层解析器和命名实体识别系统来修剪子字符串搜索空间,方法是仅考虑命名实体,名词短语组以及名词短语组中最多5个标记的所有子表达式。然后,通过查询锚文本索引,基于准确性和效率之间的适当权衡,选择了前20个最频繁的目标页面。基于以下本地和全局特征对排名者进行培训:

5.5本地和全局特征的概括

GLOW中使用的本地和全局特征概述如下,详细信息在图7中列出。
•基线特征(在排名短语中) :P(t | m),标题t是锚文本m和P(t)的目标页面的倍数,给出了链接到t的所有Wikipedia文章的分数。
•基于文本的本地特征(说明文本的相似性):Text(t),是标题t超链接到Wikipedia(由Context(t)表示)的上下文的前200个令牌TF-IDF摘要。 Text(d),输入文档中m周围100个标记窗口的TF-IDF表示。以上功能的加权版本可重新加权TF-IDF向量。
•NGD(归一化Google距离)
•PMI(逐点相互信息)
•平均值的平均值和最大值(在更长的文档中,它可能涵盖更多的子主题,最大值可能比简单平均值更具信息性)
在这里插入图片描述

5.6链接器

链接器采用了排名工具的相同功能集,并且具有与链接器工作相关的其他功能:
•排名第二的歧义t对排名者的信心,以说明排名错误的情况。
•P(t | m)的分布的熵。
•m出现超链接的Wikipedia标题的百分比,m出现为纯文本的百分比。
•NER是否将m检测为命名实体。
•基于P(t | m)中的计数,对m超出维基百科概念的可能性进行的良好估计。

6.参考

共指解析是识别文本中提到的指代同一真实世界实体的任务,这在异构网络构建中必不可少。例如:

如果我们直接使用这句话来提取事件并构造图,我们将失去汤姆最喜欢梨的信息,因为机器会将汤姆和他视为不同的实体。通过共指解析,机器将知道他是汤姆这个词,并且可以捕获汤姆最喜欢梨的信息。主流共指系统的一种方法是聚集聚类。首先,将每个提及视为一个单例集群,然后重复合并提及同一实体的提及集群。这种方法捕获实体级别的信息,换句话说,它捕获集群之间的特征而不是提及。本文[16]主要介绍了一种基于深度神经网络和聚集聚类的新方法。它使用学习的连续特征代替较少的分类特征进行聚类。
该论文的总体思想[16]是使用单个神经网络,该神经网络学习期望哪些共指簇合并。该网络由多个神经网络组成,分别是提及对编码器,集群对编码器,集群排名模型。提及对编码器用于通过为神经网络提供相关特征来生成提及对的分布式表示。集群对编码器用于通过汇总相关提及对的表示来产生集群的分布式表示。聚类排名模型通过将聚类对的表示通过单个神经网络层来对其评分。除了这些组成部分,本文[16]还训练了一个提及-排名模型。尽管它不是系统结构的组成部分,但其参数用于初始化集群排名模型。此外,文献[16]在进行聚类以提高速度时使用分数来修剪候选聚类中的提及。
编码器的输入是嵌入提到的m,ms特征,嵌入候选先行词a(作为特征)以及文档和对特征。候选前提可以是文档中m之前出现的任何提及,也可以是NA(无需提及)。为了提及和先行嵌入,将每组单词表示为该组中单词的平均向量,并将每个单词表示为word2vec产生的50维向量。对于每个提及和一对提及,嵌入功能(词头,依赖项父对象等),其他提及功能(类型,位置等),文档类型(广播新闻,网络数据等),距离功能(距离)在提及之间),说话者特征(如果提及具有相同的说话者,并且字符串匹配特征也表示为分布向量),输入通过ReLU单元的三个隐藏层传递并输出提及对。
集群对编码器生成两个提及集群的分布式表示。它合并了每个群集中提及对表示矩阵中包含的信息,这是通过合并操作完成的。
提及排名模型可以学习提及对编码器的有效权重,因此可以用作聚类排名模型的预训练。它的分数可用于确定聚类决策是否正确,以减少聚类排名模型的搜索空间。该模型将提及m和候选条件a,并应用单个完全连接的层以获得代表其对共指的兼容性的分数。
提及等级模型的缺点是它仅考虑成对提及之间的本地信息,因此无法捕获实体级别的信息。因此,文献[16]介绍了聚类排序模型来解决这个问题。
•群集排名策略网络:群集排名程序遍历文档中的每个提及,并将当前提及的群集与前一个提及的群集合并,或者不执行任何操作。在开始状态下,每个集群都包含一个提及,集群排序器将决定合并通行证。可以将这种行动决策作为概率分布来学习。
•容易进行第一类聚类排名:论文[16]根据提及等级模型,按提及得分最高的候选共指链接对提及进行降序排列。这样,较难的决定要早做出较容易的决定。这样的方法提高了共指解析系统的性能。此外,论文[16]修剪了每个提及m的候选先验集。换句话说,仅考虑得分较高的候选先行词。这样的方法提高了学习和推理的速度。

7.结论

在本次调查中,我们将介绍开放域事件提取以及对最近有希望的方法的评估。开放域事件提取技术可以显着改善信息提取的结果。它可以帮助挖掘结构化文本知识,特别是在当代文本数据爆炸时期。根据我们对开放域事件提取的概述,某些知识库(如Wikipedia)将有助于解决开放域事件提取的情况。现有的本体可以更好地挖掘结果。除了现有的知识库和本体论之外,用于开放域提取的训练数据也至关重要,特别是对于通常需要相对大量训练数据的深度学习方法而言。在我们的调查中,这两种方法以相对较低的费用和较高的准确性自动生成开放域事件提取训练数据。
尽管现有的一些知识库和本体以及自动生成的培训数据会有所帮助,但其他一些自然语言处理技术也起着更为重要的作用。实体链接和共同引用解析,例如,如果使用得当,它们可以帮助从文本语料库构建高质量且密集的信息网络,从而满足执行开放域事件提取的要求。
在调查中,我们还介绍了一些有关开放域事件提取的当前有希望的方法,包括深度学习,零热学习,通过触发聚类和模式查询进行事件模式提取。这些方法将来可能会在开放域事件提取中扮演更重要的角色。

猜你喜欢

转载自blog.csdn.net/weixin_42691585/article/details/105846271
今日推荐