01-知识图谱入门

转载自:KG的前世今生

一、为什么需要知识图谱?

当看到下面这行文本时你能想到什么?

Ronnie Antonio O'Sullivan

大多数人应该不明白这个文本表达了什么。再看看它的中文翻译:

罗尼·安东尼奥·奥沙利文

现在大多数人应该能明白这是一个外国人的名字,少数关注斯诺克的人应该能想起他的外号“火箭”以及他行云流水般的球风。

举这个例子是为了说明计算机面临这样一个困境:无法获取网络文本的语义信息。尽管人工智能得到了长足的发展,但距离一台机器拥有两三岁小孩的智力还有一段距离。这个距离很大一部分原因是机器缺乏先验知识。人因为缺乏英语知识对奥沙利文的英文名不知所云,缺乏斯诺克常识对奥沙利文的中文名不明所以;机器缺乏先验知识对“Ronnie Antonio O'Sullivan”这个字符串一筹莫展。为了让机器能够理解文本背后的含义,需要构建机器的先验知识,即对可描述的事物进行建模,填充其属性,添加它和其他事物的关联关系。对奥沙利文这个实体进行扩展,我们可以得到下面这张知识图。

机器有了这样的先验知识,当它再次看到“Ronnie Antonio O'Sullivan”这个字符串时,它就会联想到这是一个叫奥沙利文的英国斯诺克运动员。这和人在看到一些熟悉的事物时会进行关联、联想是类似的。

PS:上图并不是知识图谱实际的组织形式,甚至它会对理解知识图谱带来一些负面的影响。后面会给出这张图在知识图谱中更形式化的表示形式。

Google 为了提升搜索结果的质量,发布了知识图谱。有了知识图谱作为辅助,搜索引擎可以返回更精准、更结构化的结果。Google 知识图谱的宣传语“things not strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物。在有知识图谱前,只能返回包含搜索关键字的网页,用户需要点进这些网页查找自己想要的信息;有了知识图谱,可以返回如下的知识卡片,这个卡片包含结构化的信息,用户很大可能可以直接得到想要的信息。

二、知识图谱的相关概念

知识图谱的概念可以追溯到上个世纪五六十年代提出的一种知识表现形式——语义网络(Semantic Network)。语义网络由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系。语义网络和知识图谱类似,语义网络更侧重于表示概念之间的关系,而知识图谱更侧重于表示实体之间的关系。除了语义网络,语义网(Semantic Web)和 关联数据(Linked Data)都和知识图谱有着千丝万缕的关系。

目前,知识图谱没有标准的定义,借用这句话:

A knowledge graph consists of a set of interconnected typed entities and their attributes.

知识图谱是由一些相互关联的实体以及它们的属性组成的。换言之,知识图谱是由一条条知识组成,每条知识表示为一个 SPO 三元组(Subject -Predicate - Object)。

在知识图谱中,用 RDF 形式化的表示这种三元关系。RDF,资源描述框架,Resource Description Framework,是 W3C 制定的用于描述资源的标准数据模型。RDF 主要分为两种类型:IRI(International Resource Identifier)和 literals,IRI 是 URI 或 URL 的泛化,在整个知识图谱中唯一的定义一个资源,literals 是包含数据类型的纯文本。Subject 和 Predicate 是 IRI,Object 可以是 IRI 或 literals。那么,“奥沙利文的外号是火箭”这样一个三元组可以表示为:

<http://www.kg.com/person/1> <http://www.kg.com/ontology/nickName> “火箭”^^xsd:string

"http://www.kg.com/person/1"是一个 IRI,唯一表示奥沙利文这个实体;“http://www.kg.com/ontology/nickName”也是一个 IRI,表示昵称这个属性;“火箭”^^xsd:string 是一个 literal,表示奥沙利文的昵称。

将之前的知识图用更形式化的方式画出来:

从图中可见,知识图谱由资源和字面量组成。字面量类似叶子节点,出度为0,所以之前那张图以“罗尼·安东尼奥·奥沙利文”字面量为中心是不对的,既违背了字面量出度为0的规律,也无法体现出知识图谱中实体这个极其重要的概念。

三、总结

本文通过奥沙利文这个例子引出知识图谱解决的问题,接着给出知识图谱的相关概念及其 RDF 形式化表示。

猜你喜欢

转载自www.cnblogs.com/leoxk/p/9074089.html