事理图谱之初见

0. 前言

由于研究方向问题,终于接触到这个融合了事件抽取和知识图谱的新领域——事理图谱。事理图谱论文应该在2017年初就已经提出。在2017年CNCC大会上,刘挺教授的演讲才让事理图谱走进大众视野。

本章主要是一个背景知识介绍,所有内容均在2019年之前。下一章我们将会在讲习班过后进行补充今年以来的最新进展。要说事理图谱,就要说一说事件抽取和知识图谱。由于是一个导论一样的介绍,因此很多地方都是浅尝辄止,有机会再慢慢补充,提供了很多参考资料,日后可以慢慢阅读。

1. 事件抽取

首先我们介绍事件抽取。
事件抽取一直是信息抽取中较为热门的方向。有关它有许多学术上的介绍,我们这里给出一些综述,例如《事件抽取技术综述(2016)》、《事件抽取技术研究综述(2013年)》以及《A Survey of Event Extraction Methods from Text for Decision Support Systems》。简而言之,事件抽取的任务就是抽取出“事件”。

按照自然想法,事件应该描述的是一件事。一般的,事件具有事件类型、触发词、论元和角色四个部分,这个和语义角色标注还挺像的。事件抽取一般都是识别触发词并判断事件类型。其实就是想知道发生了什么事,这可能是一个名词或者动词短语。

对于事件的作用范围,分为句子级、篇章级(段落、短文)和跨篇章级(不同段落、文章)等。对于句子级的事件抽取,是比较成熟的。而在篇章级或跨篇章级事件抽取时,由于需要考虑相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征等,因此会难度很多。这就相当于,在每个句子上存在(不存在)一个事件,而篇章中包含多个事件(元事件),那么原本的工作是要将这多个元事件融合成一个主题事件,这是比较困难的。

另外一个解决这个问题的是关系抽取,即进行事件之间关系的识别和分类。事件之间关系主要包含:相关、因果和时序关系。这三个关系为后面的事理图谱也打下了基础。这样,一个篇章级(段落)文章中,都是围绕着一个主题,若存在若干个事件,那么事件和事件之间可能存在一定的关系,这些事件彼此联系,最终形成一个网,这也类似事理图谱。跨篇章中一个比较容易识别的关系为相关关系,即描述的同一个事情。这有的是同一个事件的不同角度汇报,也有的是同一事件的重述。这里有《关系抽取综述(2016)》和与之类似的《实体关系抽取综述(2018)》,这里还有《事件抽取与事理图谱》的相关介绍。

2. 知识图谱

知识图谱是另外一个方向,归属于符号主义。它不同于当今的联结主义(更像是不可解释的神经网络系统),它需要可解释性(尽管目前也使用了大量的神经网络模型),也就是说需要对决策给出明确的解释。这也为以后的迭代更新与知识积累打下基础。知识图谱更准确的说是实体图谱,它表示的是实体(人、物、地点)与实体之间的关系,而实体都是名词,有点像词典(词林),但是更加的广泛和庞大。一般的知识图谱都是基于三元组的表示方式,这样有利于维护和使用。

不同于事件抽取,知识图谱是一种知识的表示方式,在它方面的研究多半是研究如何进行构建知识图谱的,以便于将它应用到其他领域中。下图是一个系统示例:
在这里插入图片描述
可以看到,知识图谱牵扯到的关键技术还是挺多的,包括实体抽取、关系抽取、属性抽取以及本体构建,知识更新和知识推理,以及语料库相关的质量评估。但是最重要的是,一旦它构建完成,就可以对其他任务进行服务。更多关于知识图谱的细节讲述,详见《知识图谱综述(2016)》,也有《知识图谱基础》与《知识图谱应用》两个可供参考。

知识图谱相较于其他技术,除了研究如何构建知识图谱外,另个关注点就是商业场景应用。《从零到一学习知识图谱的技术与应用》和《6个方面分析:知识图谱的价值和应用》两篇文章从更加非技术角度讲述知识图谱如何应用到业务当中。

扫描二维码关注公众号,回复: 10685940 查看本文章

当然,提到知识图谱不提OpenKG,也是不应该的,这是一个知识图谱的开放联盟,里面有很多有用的已构建好的知识图谱供我们研究使用。

3. 事理图谱

说完这两个,大家也大概知道事理图谱是什么了吧。事理图谱在形式上表现为描述事件与事件之间的关系,定义为描述事件的演化及相关性。它基本上继承于叙事性事件链(narrative event chain),但是更加的复杂,不仅仅关注事件之间的时序性和因果性,还包括同一事件对不同事件的影响。在应用上,知识图谱可以完成when / who/ what/ where等常识问题。事理图谱可以回答Why/How等动态问题。

简单来讲,事理图谱就是将知识图谱中节点为实体转换为事件,这样可以刻画更加灵活的记忆(知识)。下图主要列举了事理逻辑的几种类型主要包括因果事理、条件事理、反转事理、顺承事理、上下位事理、组成事理、并发事理共七类事理,一般的主要关注的是因果事理和顺承事理:
在这里插入图片描述
这里是两个金融事理图谱的应用展示:

  1. 哈尔滨工业大学的金融事理图谱展示
  2. 数据地平线的商品金融事理图谱展示

都是“货币超发”:

  1. 哈工大的展示
    hgd
  2. 数据地平线展示:
    dpx
    看起来好像哈工大的更加丰富。但是另外一个方面,例如“感冒”、“经常熬夜”等,哈工大的就没有收录,而数据地平线则有相关数据。

这里主要参考《数据地平线》和《哈工大》的事理图谱的相关介绍。

https://www.jianshu.com/p/5646e5b5e288
http://www.sohu.com/a/140664312_657157

事理图谱的主要应用方面如下:

  1. 基于事理图谱的知识问答。
  2. 基于事理图谱的消费意图识别。
  3. 基于事理图谱的重要新闻判别与推荐。
  4. 基于事理图谱的知识管理。
  5. 基于事理图谱的推理与辅助决策。

更多的相关知识详见《事理图谱,下一代知识图谱》。

这里附上2018年IJCAI的事理图谱的应用《基于叙事事理图谱和可扩展图神经⽹络的脚本事件预测模型》及其解析

对于事件抽取和事理图谱的工程技术,可以参考这两篇博客:《事件抽取技术方案简介》以及《事理图谱——工业实践总结》。

4. 其他相关技术

事理图谱往前了说,还有一个叫做脚本学习的任务。Schank 在 1975 年提出了脚本 概念。脚本学习指的是用脚本( Script) 的方式来表示 特定场景下的事件知识用无监督的方法构建事件链,成为该方向一个具有代 表性的先驱工作。脚本学习涉及事件表示、事件预测等多方面内容,例如,根据上下文预测故事的正确结尾等。

事理图谱往后了说,也就是更加细化的表示,则是情报事理图谱。它相较于事理图谱,更加的细化,将一个个事件描述成历史上一个固定的点,它包含的内容不仅包括事件,还包括事件发生的日期、地点等。它和事理图谱的区别如下:
在这里插入图片描述
更多关于情报事理图谱的内容详见《情报事理图谱的概念界定与价值分析(2018)》。

发布了232 篇原创文章 · 获赞 547 · 访问量 51万+

猜你喜欢

转载自blog.csdn.net/qq_35082030/article/details/96377494