知识图谱:Konwledge Graph简介

一、概念

Konwledge Graph来源于2012年谷歌提出的,用于增强其搜索引擎功能的知识库。

本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。

具体体现在谷歌搜索中输入:杭州景点,能够得到结构化的知识,而不是简单的网页链接:
这里写图片描述
知识图谱是一种结构化的语义知识库,其基本组成单位是“实体-关系-实体”的三元组,以及实体及其相关属性-值对,通过实体间的关系构成网状的知识结构,如:

这里写图片描述

上图中,每一个节点(如:周迅)均为实体,实体具有属性-值对(如:明星名字:周迅),同时实体与实体之间通过关系(如:王菲-旧爱-谢霆锋)相互连接,构成一个特定领域(明星)的知识网络。

二、架构

1、逻辑结构

从逻辑上将知识图谱分为两层,数据层与模式层。
数据层主要由一系列的事实组成,而知识将以事实为单位进行存储,如:实体-关系-实体,实体-属性-值这样的三元组,对应到实际的数据。
模式层则建立在数据层之上,主要是通过本体库来规范数据层的一系列事实表达,对应到实际的数据规范,术语描述等。

(1)本体

本体一词来源于哲学,属于一种形而上的理念。在语义网的角度,本体实际上是定义组成某个“领域”的词汇表中的术语与其关系,以及结合这些术语和关系来定义词汇表外延的规则。
1)领域,本体一般会描述一个特定的领域,比如:明星、大学等等。
2)词汇表,用来描述某个领域中事物的词汇
3)术语,指定领域中的重要概念,比如:描述大学领域,会涉及学生、教职工、课程等等
4)术语间的关系,在领域的体系中,存在上下位、并列等等结构,需要明确的指定,比如:学生的下位关系中存在本科生、研究生等,同时,学生与教职工又存在并列关系。
5)词汇表外延的规则,可以理解为属性,定义了一种约束,如:学生必须拥有“专业”这个属性
简单来说,在数据层面,本体实际定义了一套如何描述数据的规则,要求所有的事实都按照同样的格式进行存储表达。

(2)概念

概念是实体的抽象化,知识图谱中,定义“概念-关系-概念”的形式,同时概念也拥有属性。类似到程序结构中,概念是实体的父类。简单来说,豪车是一个概念,奔驰也是一个概念,车轮也是一个概念,我们可以定义以下关系:
豪车–[拥有]–车轮,奔驰–[是]–豪车

(3)实体

实体是概念的具象化,接上文,奔驰GLC级是一种实体,这个实体同时拥有以上的定义的关系,它是豪车,同时也是奔驰,也拥有车轮,同时,通过属性定义可以知道,拥有车轮的数量是4个等等。

2、体系架构

体系架构指的是在实际工作中,构建整个知识图谱的过程,主要分为自顶向下与自底向上两种模式。

(1)自顶向下

自顶向下,首先定义好本体,确定领域的层次结构及各个概念属性及概念与概念间的关系,之后再将实体加入到知识库中,类似一种填充的模式,代表工作是Freebase,从维基百科中提取结构化数据。

(2)自底向上

自底向上指的是从开放的数据源中,抽取实体、属性及关系,往上构建概念,最终形成本体。目前,这个模式被大多数工作采用,代表工作有谷歌的Knowledge Vault。
下面是一般自底向上构建本体库的流程:
这里写图片描述

1)数据抽取

最底下的是数据获取及存储,从不同结构的数据中获取知识,如使用爬虫从开放的网页中抽取,结构化数据。
之后,从获取的数据中抽取实体,即命名实体识别,抽取实体关系,抽取实体属性等。

2)事实融合

我们从不同的数据源抽取出来的数据,可能是冗余、噪音及各种不确定、非完备的数据,这时候就需要消除歧义,比如,李娜,可能是打球的李娜也可能是唱歌的李娜,这是两个实体需要分辨出来;剔除冗余,剔除错误等等。

3)知识处理

上述事实融合处理,得到还不能称为知识,只是说是一种描述性的事实。比如,A的父亲是B,B的父亲是C,C的父亲是D,这样的数据,这时候就需要进行知识推理,直接得到C是A的爷爷等。同时,需要从构建完备的知识中抽取出概念,形成一套完备的本体。

4)知识更新

知识图谱的构建是一个长期的过程,通过本体库,增加新知识,剔除错误知识。

三、应用

1、优化搜索排序,展示特定的意图下的结构化知识
2、问答系统中实现知识推理
3、金融领域中实现反欺诈,智能投顾等
4、社交领域中的兴趣推荐、用户聚类等

四、参考

上文只是对知识图谱的简单介绍,其中涉及的种种自然语言处理、逻辑推理算法没法一一列出,具体参考:
1、知识图谱构建技术综述 刘峤等
2、知识图谱技术综述 徐增林等
3、https://blog.csdn.net/iloveayu/article/details/76714077

猜你喜欢

转载自blog.csdn.net/sinat_33741547/article/details/80271156