一个知识图谱的schema就是相当于一个领域内的数据模型,包含了这个领域里面有意义的概念类型以及这些类型的属性。事件schema包括事件的层级体系和事件的论元结构。
事件的层级体系记录了某个领域里一种典型的上下位关系。
事件的论元结构是针对某类事件,将某一事件类型、该事件类型下对应的事件论元进行约束。
本篇文章对已有开放领域事件体系和开放预定义事件论元结构做出了简单的介绍,并针对特定领域如何构建事件体系和事件论元结构提出一些可能的方法。
已有开放领域事件体系
1.金融事件体系
金融领域事件体系中,万得制定了全球风险事件数据标准,结合了海外先进的信用分析框架理念和国内真实的风险事件场景参数,极大地保留了所有风险事件的原始表达形式,并在此基础上进行了抽象化、数字化的处理,为中国金融投资机构提供一套可使用、可拓展、可延伸的数据库!
2.全球政治事件体系
CAMEO作为政治领域的一个典型代表,提供了一个三层、20个事件大类,310个事件小类的事件体系,针对每个事件都给出了其唯一的数字编码、事件名称、事件描述、事件的使用方式以及例子。
例如“反对”这一事件,可以分成反对、批评或谴责、指控、着急反对行动、官方抱怨、提起诉讼、发现有罪或有责任6个小的事件类。
3.DMOZ开放事件体系
DMOZ(开放地址目录),不同于一般分类目录网站,它不是利用内部工作人员进行编辑的,而是由来自世界各地的志愿者共同维护与建设的最大的全球目录社区。在2008年初的时候,DMOZ拥有78999个志愿编辑,590 000个目录和4591 492个优秀质量的网站。目前涵盖1,031,722个类别信息。
开放预定义事件论元结构数据
论元结构,亦称“述谓结构”。由谓词和论元组成的结构。
例如:“老师送给学生一本书”,是由一个谓词“送给”和三个名词性论元“老师”、“学生”、“一本书”组成的论元结构
1.ACE事件论元结构
ACE2005定义了生命、移动、联系、冲突、商务、交易、人事、司法8种事件类别以及33种子类别。每个事件类型和子类型都有自己的Arguments,用模版的方式来描述。
事件类型 |
子事件类型 |
生命(Life) |
出生、结婚、离婚、伤害、死亡 |
移动(Movement) |
运输 |
联系(Contact) |
会面、打电话/写信 |
冲突(Conflict) |
袭击、游行 |
商务(Business) |
机构合并、破产声明、机构成立、机构终止 |
交易(Transaction) |
金钱转移、所有权转移 |
人事(Personnel) |
竞选、职位开始、职位结束、提名 |
司法(Justice) |
逮捕、执行、赦免、假释、罚款、宣告有罪、控告、听证、开释、引渡、上诉 |
2.金融领域事件论元结构
CCKS 系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展。CCKS2019提供了包括质押、股份股权转让、投资、起诉和高管减持、收购、担保、中标、签署合同和判决提供了涵盖九大类事件类型的论元结构数据。
上面介绍了已有的开放领域事件体系,但是数量很少,不一定适合特定领域需求。所以针对一个新的领域进行构建事件体系时,要制定领域适合的事件体系。采用领域专家手工创建的方法显然是不现实的,成本很高。
下面介绍一种采用机器自动生成的方式构建,主要是基于规则组合方式进行构建,包含自顶向下和自下而上两种模式。
制定领域事件体系
1.自顶向下的事件层级体系构建
构建一个事件体系,自顶向下模式是从事件的最顶层出发,从最初的一级事件扩展规则,逐步得到二级、三级等事件类型。需要注意的是,在确定一级事件时,通常是具有高级抽象意义的动词,是事件的核心动作。
例如:构建“上涨”事件
得到一级事件类型“上涨”事件之后;通过主体+核心动作这样的规则可以得到像“价格上涨”、“人口上涨”这样的二级事件;再通过描述事件主体的属性事件这样的规则可以得到“食品价格上涨”、“城市人口上涨”这样的三级事件。接下来可以增设新的规则来扩展事件层级。
2.自下而上的事件层级体系构建
构建一个事件体系,自下而上模式是从最底层的事件实例出发,通过一步步抽象、聚类得到三级事件、二级事件、一级事件。需要注意的是,一个事件所对应的上位事件可能有多个,抽象出的体系不可控。
例如:“范某某偷税漏税”事件
这是一个和具体的事件,通过对“范某某偷税漏税”这一事件进行实体识别,将识别出的实体类型与相应的词进行替换得到“[人物]偷税漏税”这一上层事件;再通过对事件的核心动作进一步抽象(偷税漏税->违法)得到“[人物][违法]”。接下来进一步抽象最终可得到完整的事件体系。
同样,上面讲到的开放事件论元结构是不足够的,而且是基于人工构建,耗时费力,也是不现实的。下面介绍采用机器自动完成构建事件论元结构。
自动构建事件论元结构
1.使用时间、地点、人物、机构等默认通用论元。
Framenet、Verbnet等知识库中包含了大量的事件类知识,百度百科类中所对应的info-box信息也提供了针对某类事件的属性信息,如“地震”类事件,包括“地震地点”、“地震震源深度”等属性信息,可以借助这些外部知识库构建论元。
2.基于事件本身,提出事件的主体、客体、核心动作等
具体来说,是从事件的上下文自动挖掘出事件对应的论元结构。其核心在于识别句子的核心动作,然后借助依存句法分析,也就是识别句子中词汇与词汇之间的相互依存关系,或者语义角色标注,也就是以句子为单位,分析句子的谓词-论元结构等方法,识别出事件的主体客体等。
参考文献
https://baike.baidu.com/item/%E8%AE%BA%E5%85%83%E7%BB%93%E6%9E%84/55178618
https://mp.weixin.qq.com/s/feobmsEHINwM-UZbHVzq2w
http:// https://zhuanlan.zhihu.com/p/38593276
郭嘉琦. 领域本体的构建及其在信息检索中的应用研究[D]. 北京邮电大学.