事件图谱入门

事件图谱是一个比知识图谱内涵信息更为丰富、领域性更强的一类知识库,事件抽取作为构建事件图谱的重要手段,旨在抽取得到事件,事件要素以及事件之间的关系等知识。


数据资源

事件抽取数据集

ACE事件抽取数据集:ACE是当前事件抽取评测中最富盛名的包括多个评测任务,该评测定义了包括生命、移动、联系、冲突、商务、交易、人事、司法共8大类事件类型。

DuEE百度中文句子级事件抽取数据集:该评测任务为百度发布的中文事件抽取数据集,数据来源于百度信息流资讯文本。该评测任务定义了包含财经交易、产品行为、交往、竞赛行为、人生、司法行为、灾害意外、组织关系、组织行为共9大类。

科大讯飞开放域事件抽取数据集:科大讯飞2020事件抽取评测任务中定义了事件触发词及论元抽取、事件属性抽取两大任务。

事件关系抽取数据集

面向金融领域的篇章级事件因果关系抽取:这是ccks2021的一个评测任务,该任务旨在给定一段描述因果或影响关系的文本,从文本中抽取原因事件的表示和结果事件的表示,其中事件的表示包括事件类型和事件的三个要素:影响地域、产品、行业。


从知识图谱到事件图谱

知识图谱的基本组成单位是<实体,实体关系,实体>,我们将实体单位换成是一个事件,实体之间的关系换成是事件的关系,那么就可以得到以“事件”为核心的事件图谱。

比较项目 实体知识图谱 事件知识图谱
描述知识 实体性知识(静态陈述性) 事件性知识(动态过程性)
知识本体 概念、概念上下位、概念属性及关系 名词性实体、属性值、事件
关系边 实体-属性、实体-实体 事件-事件、事件-实体、事件-属性
知识来源 结构化与半结构化为主 非结构化为主
抽取难度 从句子或段落和获取,较易 段落、篇章、篇章集合,较难
领域变体 语言知识图谱、百科知识图谱、常识知识图谱 垂直事件知识图谱、通用事件知识图谱、抽象事理图谱
应用场景 实体查询、知识问答、实体预测、实体画像等 事件查询、事件分析、事件监测、事件预测与推理等
关键技术 概念抽取、实体识别、实体关系抽取、实体属性抽取 事件体系构建、事件元素抽取、事件预测与推理
构建流程 定义Schema、实体/实体关系/实体属性抽取、实体融合 定义Schema、事件检测/分类、事件论元题提取、事件关系提取

通过知识图谱和事件图谱的比较,可以发现实体知识图谱更偏向于实体查询、知识问答、实体预测、实体画像等搜索业务,事件图谱更偏向于舆情监测和文本分析,比如事件监测、预测与推理。


事件元素抽取

事件抽取任务,主要识别一段文本中事件触发词(trigger)、事件触发词所属类型(event type)、事件要素(argument),其中事件要素包括每个要素涉及的角色(role)。

事件抽取任务可以分为事件检测元素识别两个子任务

事件检测:也叫事件识别,通过识别文本中的事件触发词检测事件,并判断事件类型。

例如:生活-出生类型事件表示框架为{人物,时间,地点}

元素识别:也叫角色分类,根据事件表示框架判断文本中的实体是否为事件元素,并确定元素角色。

元素识别又可以分为触发词识别、事件类型分类、论元识别和角色分类四个子任务

  1. 触发词识别:即识别出句子中的特定词语,通常是名词和动词。触发词:事件的关键,通常是事件的发生词

例如:“今天我市内发生一起抢劫案件”,“抢劫”为动词性触发词

     2.事件类型分类:也称事件触发词分类,旨在判断句子中的指定触发词所对应的事件类型

     3.事件论元识别:也称事件元素识别,即识别出事件中的论元类型

例如,对于一个结婚事件,需要识别出结婚的人、结婚时间以及结婚地点这三个论元

      4.论元角色分类:也称事件元素角色识别,用来判断句子中任意一对触发词和实体之间的角色关系。

      5.事件属性识别:包括对事件主体之外的信息进行识别,包括事件极性(Polarity)、时态 (Tense),是衡量事件是否真实发生的重要依据。


事件抽取方法

基于模式匹配的事件元素提取

模式匹配方法是当前基于规则的事件抽取方法,可以分为有监督的模式匹配方法和弱监督的模式匹配方法两大类。

有监督的模式匹配方法依赖于人工标注语料进行事件模式学习,弱监督的模式匹配方法只需对语料进行预分类或制定种子模式的少量人工标注工作,然后自动进行事件模式学习。

基于机器学习的事件元素抽取

基于模式规则的方法很难胜任大规模复杂类型数据集上的抽取任务,与基于模式匹配的方法不同,机器学习方法将事件类别及事件元素的识别转换成为分类问题,主要核心在于是选择合适的特征,以及合适的分类器两个主要部分。

根据不同的学习方式,进一步分为基于流水线模型的时间抽取方法和基于联合模型的事件抽取方法,基于流水线的方法将事件抽取任务分为事件识别和论元角色分类任务两个独立任务,后者输入依赖于前者输出,论元角色分类任务的输入是识别出的触发词和所有候选实体。

基于神经网络的事件元素抽取

基于机器学习的事件元素抽取需要花费大量的时间去进行人工定义特征。神经网络和传统方法的不同之处在于特殊的特征表示和特征学习方式,它使用自动学得的连续型向量特征替换人工定义的离散型特征。

基于卷积神经网络的事件抽取

Chen等(2015)提出基于动态多池化卷积神经网络(DMCNN)的事件抽取方法,用词的分布式表示(Word Embedding)捕获语义信息,用CNN捕获句子层信息。考虑到CNN只能捕获一句话中最重要的信息,当句子中含有多个事件时可能会有信息丢失,因此,该模型依据触发词和元素的位置,动态切分卷积操作后的特征图,然后再分别对切分后的每部分做max-pooling,这样就能保存更多关键地事件信息。

基于循环神经网络的事件抽取

Nguyen等(2016)年利用双向LSTM,将事件抽取任务从分类问题变成了序列标注问题,抽取句子中的语义特征,然后联合句子结构特征同时抽取事件触发词和事件元素

基于多轮问答范式的事件抽取

使用多轮问答,来解决实体-关系抽取任务。每个实体类型和关系类型由一个问答模板来表征,通过问答模板提取实体和关系。答案是文本跨度对(span),使用现在标准的机器阅读理解(MRC)框架提取:预测给定上下文的答案范围。

若要从文本中抽取结构化数据如下:

模型则需要回答以下的问题序列:


事件抽取关键问题

事件抽取schema难定义

事件抽取的首要条件是预先定义好的待抽取的事件类型,在不同领域需要定义不同的事件类型。事件抽取不仅需要抽取文本中的事件实例并识别其类型,而且需要为每个事件实例抽取所涉及的论元赋予相应的角色。而标注一个这样的体系代价很大,因为需要在指定时间和参数角色类型之前检查大量数据,并为每个类型编写详细注释。

抽取范围难题

传统的事件抽取任务大多数基于句子层面,但一个事件可能涉及触发词和多个论元。实际情况下,一个句子很难包含触发词和所有的论元。所以,从单个句子中抽取很难得到一个事件的完整信息。

训练数据的缺失

机器学习和神经网路的事件抽取需要大量标注数据,而且可能因为标注的主观性而出现不一致的情况,因此标注数据难度很大。

例如:ACE数据集,其整体数据仅来源于599个英文文档,定义的33个事件类型中有超过60%的类型样本数不超过100个,甚至有3个事件类型的样本没有超过10个。


参考文献

https://blog.csdn.net/lhy2014/article/details/89115787

https://blog.csdn.net/muumian123/article/details/81746583

https://blog.csdn.net/real_ilin/article/details/106065232

https://mp.weixin.qq.com/s/I9DDi8GMJ0SjK26MQ501gA


猜你喜欢

转载自blog.csdn.net/Minor0218/article/details/127034438
今日推荐