【知识图谱】(一)引言

第一章   知识图谱:引言

一个知识图谱由一系列相互连通的实体以及它们的属性构成。

        相比于其他面向知识的信息系统,知识图谱的与众不同在于它独特的知识表示结构、信息管理方式和搜索算法的结合。2012年谷歌开始使用知识图谱优化他们的搜索引擎,允许用户去直接搜索事物、人以及地理位置而不是传统的通过字符串匹配来搜索。而谷歌的成功也让其他大型公司开始将注意力转移到知识图谱上。

        然而知识图谱的思想并不是最近几年才提出来的,知识图谱的前身叫做语义网络(SemanticNetworks)。知识表示和知识推理的研究者通过标准化的语义网络(也成RDF,Resource Description Frameworks)解决了许多难题。这表明知识图谱和语义网络这样的知识表示技术不仅在网络搜索上能帮上忙,在其他领域如企业信息资源管理上也可以大有作为,这本书的内容即关于构建、理解和利用知识图谱。

        知识图谱的基本单元是实体(entity),比如你正在观看的足球比赛,你将要去的城市类似的任何你想要去描述的东西都可以称之为实体。每个实体可能含有多个属性(attribute)。例如一个人可以拥有名字,生日,国籍等属性。此外,实体之间可以通过关系(relation)来连接彼此,比如你在推特上关注了某个大学校友。关系可以为两个独立的知识图谱搭建桥梁。例如,我们可以使用同一人的推特账号和驾照号码来将推特数据知识图谱和驾照数据知识图谱联系到一块。每一个实体需要一个独一无二的身份标记使得我们可以去识别它们。实体和关系的类型被定义为机器可以理解的字典形式,叫做本体(ontologies),标准本体语言叫做OWL(Web OntologyLanguage)。

        知识图谱的质量对其应用至关重要,比如知识图谱需要保持一致性(consistency)。继续使用上面的例子,你在推特上的个人地址和在驾照上的个人地址可能是不一样的,那么在将这两个信息空间连接到一起的时候,这两个地址必须被处理为一个正确的地址。除了一致性之外,知识图谱确保知识的正确性,系统的容错性、可扩展性和效率问题。这些问题都和知识图谱的模式(schema),也就是本体有关。

本体作为知识图谱的模式,定义了知识图谱中所使用的词汇(vocabulary)。

1.1知识图谱的历史

1.1.1语义网络的问世

         语义网络是第一代基于计算机的知识表示方法,它通过相互连接的点和弧来表示知识,点表示对象,概念或者某种情况,边表示它们之间的关系,比如is-a和part-of关系。

         相比于传统知识表示和推理结构比如谓语逻辑,语义网络相对更容易去使用和维护。但另一方面,语义网络也有很多局限。比如它没有统一的语法和语义,会造成歧义,并且不允许用户去给节点和边打标签。

1.1.2语义网络到联结数据(Linked Data)

      资源描述框架RDF是W3C的标准,解决了语义网络缺少正式语法和语义的问题。例如,is-a关系可以表示subClassOfproperty,其语义在RDF中会有明确定义。RDF并没有解决语义网络所有的局限性,比如RDF也不允许用户去定义概念。这个确定被网络本体语言OWL(W3C用来在RDF图中定义词汇的一个标准)所解决,在OWL中,part-of关系不是subClassOfproperty这种预先定义好的关系,相反它是用户自定义的。

          基于RDF和OWL,Linked Data成为了在不同应用和领域中处理和分享数据的统一框架,RDF提供了基于图的数据模型来描述对象,OWL提供用于标注数据定义词汇的标准途径。在典型的Linked Data中,RDF图之间可以通过映射(mapping)来进行关联,包括模式级别的映射(subClassOf)和对象级别的映射(sameAs)。

1.1.3知识图谱:以Linked Data实体为中心的视图

         2012年,谷歌通过发表博客‘Introducingthe Knowledge Graph: things, not strings’普及了‘知识图谱’这个字眼,他们同时将知识图谱应用到web搜索上,这一应用带来的不同之处在于,在经过关键词搜索之后,结果页的展示不仅仅是一系列Web Page的rank,谷歌在页面右边还会展示一个结构化的知识卡片,里面包括所搜索实体的可能有助于解决搜索问题的信息,通过自动送上搜索的答案来减轻了用户搜索-点击-寻找相关信息操作的繁琐。大多数情况下,这样的知识卡片都能解决用户的搜索难题,省去了用户自己去点击搜索结果寻找相关信息,大大提升了搜索速度和搜索质量。

1.2知识图谱涉及到的技术

         一个知识图谱系统往往包括构建、存储、使用三部分。对于知识图谱的构建和存储,涉及到的技术包括:

•知识表示和只是推理(语言、模式和标准词汇),

•知识存储(图数据库)

•知识工程(方法论,设计模式)

•知识学习

前三部分主要的技术可以分为知识表示KR,数据库技术,本体和语义网,对于知识学习涉及到知识挖掘、自然语言处理还有机器学习。知识图谱的内容可以使用查询搜索语句,搜索引擎,自定义借口来直接访问和分析,或是将知识图谱可视化来进行分析。

猜你喜欢

转载自blog.csdn.net/weixin_39837402/article/details/80022074