【知识图谱学习笔记】(一)知识图谱概述

目录

 

1.1基本概念:

1.1.1狭义概念

1.1.2 广义概念

1.1.3 知识图谱与本体的关系

1.2 知识图谱的研究意义

1.2.1 知识图谱是认知智能的基石

1.2.2 知识引导成为解决问题的重要方式之一

1.3 知识图谱的应用价值

1.3.1 数据分析

1.3.2 智慧搜索

1.3.3 智能推荐

1.3.4 自然人机交互

1.3.5 决策支持

1.4 未来研究方向


1.1基本概念:

狭义的知识图谱是一类知识表示,本质上是一种大规模语义网络。广义上的知识图谱是大数据时代知识工程一系列技术的总称,在一定程度上指代大数据知识工程这一新兴学科。

1.1.1狭义概念

1.知识图谱作为语义网络的内涵

作为一种知识表示形式,知识图谱是一种大规模的语义网络,包含实体(entity)、概念(concept)及其之间的各种语义关系。两个要点:第一,其是语义网络,这是知识图谱的本质;其二,其实大规模的,这是知识图谱与传统语义网络的根本区别。

图 1 语义网络的组成(星号表示可以存在多个不同的属性或者关系)


语义网络是一种以图形化的(graphic)形式通过点和边表达知识的方式,其基本组成元素是点和边。如下图所示的就是一个典型的语义网络。语义网络中的点可以是实体、概念和值:

  1. 实体。实体有时被称作对象或实例(instance)。实体是属性赖以存在的基础,并且必须是自在的,即独立的、不依附于其他东西而存在的。
  2. 概念。概念又被称为类别、类(category或class)等。比如“哲学家”,不是指某一特定的哲学家,而是指一类人,这一类人有相同的描述模板,构成一个类或者概念。概念所对应的动词是“概念化(conceptualize)”或者“范畴化(categorize)”。概念化一般指识别文本中的相关概念的过程。
  3. 。每个实体都有一定的属性值。属性值可以是常见的数值类型、日期类型或者文本类型。

知识图谱中的边可以分为属性(property)与关系(relation)两类。属性描述实体某方面的特效,比如人的出生日期、身高、体重等。属性是人们认知世界、描述世界的基础。关系则可以认为是一类特殊的属性,当实体的某个属性值也是一个实体时,这个属性实质上就是关系。

2.知识图谱的优缺点

知识图谱与传统语义网络有什么区别?这一问题的答案决定了知识图谱的存在价值。知识图谱与传统语义网络最明显的区别体现在规模上:知识图谱规模巨大,此外,还体现在其语义丰富、质量精良、结构友好(三元组)等特性上。

知识图谱在规模上的变化也决定了知识图谱从知识获取到知识应用均与传统语义网络存在显著区别。这些区别构成了知识图谱构建与应用的独特挑战,分别论述如下:

  1. 高质量模式缺失。提升知识图谱的规模往往会付出质量方面的代价。构建知识图谱的初衷是为了适应开放性环境下的知识需求。为了让更多的知识入库,势必要适当地放宽对于知识质量的要求。传统数据库与知识库对于其中的数据或知识有着严格的定义,对能够入库的数据有着严格约束。几乎所有严格定义都容易遭遇特例。因此,知识图谱在设计模式时通常会采取一种“经济、务实”的做法:也就是允许模式(schema)定义不完善,甚至缺失。模式定义不完善或缺失对知识图谱中的数据语义理解以及数据质量控制提出了挑战。
  2. 封闭世界假设不再成立。传统数据库与知识库的应用通常建立在封闭世界假设(closed world assumption,CWA)基础之上。CWA假定数据库或知识库中不存在(或未观察到的)的事实即不成立的事实。很显然,这是一个较强的假设,只适用于封闭领域。大多数开放性应用不遵守这一假设。也就是说,在这些应用中确实的事实或知识未必为假。比如,很难保证知识图谱中关于柏拉图的信息完整,很可能会缺失柏拉图父母的信息。但常识告诉我们柏拉图一定有父母。不遵守CWA给知识图谱上的应用带来了巨大的挑战。
  3. 大规模自动化知识获取成为前提。知识图谱规模巨大,其实现依赖大规模自动化知识获取。传统知识工程依赖专家完成知识获取,这一方式难以实现大规模知识获取,难以满足知识图谱的规模要求。大规模自动化和知识获取是知识图谱与传统语义网络的根本区别之一。需要注意的是,大规模 自动化知识获取的方式是多样的,可以从文本中自动抽取,也可以基于大规模众包平台的知识标注,还可以是多种方式混合。但不管是哪种具体的实现方式,大规模知识获取都是知识图谱构建所必需的。

1.1.2 广义概念

知识图谱技术发展到今天,其内涵已经远远超出了语义网络的范围,在实际应用中它被赋予了越来越丰富的内涵。如今,在更多的实际场景下,知识图谱作为一种技术体系,指代大数据知识工程的一系列代表性技术的总和。

1.1.3 知识图谱与本体的关系

本体(ontology) 是共享概念模型的显式说明[1], 描述概念与概念间的关系; 是语义Web 的关键技术, 用于为Web 网页添加语义. 语义Web 理念中的本体与知识图谱, 二者密切相关. 本体描述概念及概念间的关系, 是大多数知识图谱的模式层, 是知识图谱的概念模型和逻辑基础. 知识图谱与本体的相同之处在于: 二者都通过定义元数据以支持语义服务. 不同之处在于: 知识图谱更灵活, 支持通过添加自定义的标签划分事物的类别. 本体侧重概念模型的说明, 能对知识表示进行概括性、抽象性的描述, 强调的是概念以及概念之间的关系. 大部分本体不包含过多的实例, 本体实例的填充通常是在本体构建完成以后进行的. 知识图谱更侧重描述实体关系, 在实体层面对本体进行大量的丰富与扩充. 可以认为, 本体是知识图谱的抽象表达, 描述知识图谱的上层模式; 知识图谱是本体的实例化, 是基于本体的知识库.

 [1]Gruber TR. A translation approach to portable ontologyspecifications. Knowledge Acquisition, 1993, 5(2): 199–220.

黄恒琪,于娟,廖晓, 等.知识图谱研究综述[J].计算机系统应用,2019,28(6):1-12. DOI:10.15888/j.cnki.csa.006915.

       (引用书本)本体源于哲学中的本体论,侧重于对存在进行规定和刻画。人工智能领域提出本体的一个重要动机是,知识的共享与复用,以及数据的互联互通。不同的自治系统(比如不同的网站、不同的机器)只有遵循相同的“世界观”,才可能形成类似的“理解”。语义网领域发展出了很多本体定义语言与资源交换标准。因此,计算机领域的本体侧重于表达认知的概念框架,表达概念之间的语义关系,往往也伴随着刻画概念的公理系统。

       本体刻画了人们认知一个领域的接本框架。框架与实例之间的关系好比人的骨髓与血肉之间的关系。没有框架,无法支撑机器杜宇世界或者某个特定领域的理解,框架是认知的核心与灵魂。但是只有框架没有实例,就好比精神很好但四肢无力,也无法实现机器智能。为机器定义本体,就好比将我们的世界观传递给机器。显然,这一工作需要人类专家完成。相比较而言,知识图谱富含的是实体以及关系实例。在建设知识图谱的初期,模式定义实质上是在完成本体定义的任务。

1.2 知识图谱的研究意义

1.2.1 知识图谱是认知智能的基石

所谓认知智能是指让机器具备人类认知世界的能力。机器认知智能这个核心能力是“理解”和“解释”,二者均与知识图谱有着密切关系。首先,需要给机器的“理解”和“解释”提出一种解释。机器理解数据的本质是从数据到知识图谱中的知识要素(包括实体、概念和关系)的映射。通过反思人类理解文本的过程不难发现,“理解”可以视作建立从数据(包括文本、图片、语音、视频等数据)到知识图谱中的实体、概念、属性之间的映射的过程。而“解释”就是讲知识图谱中的知识与问题或者数据相关联。

知识图谱对于机器认知智能的重要性还体现在以下几个方面:

  1. 知识图谱使能机器语言认知。
  2. 知识图谱赋能可解释人工智能。
  3. 知识有助于增强机器学习的能力。

1.2.2 知识引导成为解决问题的重要方式之一

知识图谱对于实现机器认知智能的重要作用,决定了知识引导将成为解决问题的主要方式之一。当下,计算机解决问题主要采取数据驱动的方法,也就是从样本数据中建立统计模型,挖掘统计规律来解决问题。为了提升效果,数据驱动的方法通常需要较多样本数据。但是,即便样本数据量再大,单纯的数据驱动方法仍然面临效果的“天花板”。

而要突破这个“天花板”,需要知识引导。很多知识密集型的应用对于知识引导提出了强烈诉求。比如,在公司诉求的刑罚预测问题中,同样的两个伤人案情陈述,一个是嫌疑犯预先带着匕首,另一个是嫌疑犯随手捡起一块砖头,即便其他所有陈述完全相同,其刑罚结果也是完全不同的(前者会被判定为蓄意谋杀,后者会被判定为临时起意,量刑结果完全不同)。究其原因,刑罚从根本上讲是由司法知识决定的。数据驱动的方法单纯利用词频文本统计特征,很难有效解决这类知识密集型的实际任务。实际应用越来越要求将数据驱动和知识引导相结合,以突破基于统计学习的纯数据驱动方法的效果瓶颈。

因此,知识将成为比数据更重要的资产。如果说数据是石油,那么知识就好比石油的萃取物。如果我们只满足于直接从数据中获取价值,就好比直接输出石油赢利。但是,石油更巨大的价值蕴含于其深加工的萃取物中。石油萃取的过程与知识加工的过程也极为相似,都有着复杂的流程,都是大规模的系统工程。

1.3 知识图谱的应用价值

机器认知只能的发展过程本质上是人类脑力不断解放的过程。在工业革命和信息化时代,人类的体力被逐步解放;而随着人工智能技术的发展,尤其是认知智能技术的发展,人类的脑力也将会被逐步解放。越来越多的知识工作将逐步被机器所替代,伴随而来的是机器生产力的进一步提升。基于知识图谱的认知智能的应用广泛而多样。

1.3.1 数据分析

大数据的精准与精确分析需要知识图谱。如今,越来越多的行业或者企业积累了规模客观的大数据,但是这些数据并未发挥应有的价值,很多大数据还需要消耗大量的运维成本。大数据非但没有创造价值,在很多情况下还成为一笔负资产。这一现象的根本原因在于,当前的机器诸如知识图谱这样的背景知识,无法准确理解数据,限制了大数据的精准与精确分析,制约了大数据的价值变现。事实上,舆情分析、互联网的商业洞察,还有军事情报分析和商业情报分析,都需要对大数据做精准分析,而这种精准分析必须有强大的背景知识来支撑。

除了大数据的精准分析,数据分析领域的另一个重要趋势——精细分析,也对知识图谱和认知智能提出了诉求。比如,很多汽车制造商都希望实现个性化制造,即希望从互联网上搜集用户对汽车的评价与反馈,并以此为依据实现汽车的按需和个性化定制。

1.3.2 智慧搜索

首先,精准的搜索意图理解。比如,淘宝搜索“华为充电器”,用户的意图显然是要搜索一个充电器,而不是一个华为手机,这个时候淘宝应该反馈给用户若干个充电器产品以供选择。

其次,搜索对象复杂化、多元化。传统搜索对象以文本为主,未来越来越多的应用希望能搜索图片和声音,甚至还能搜索代码、视频、设计素材等,要一切皆可搜索。

再次,搜索粒度多元化。现在的搜索不仅要做篇章级的搜索,还希望能做到段落级、语句级、词汇级的搜索。传统的知识管理大多只能做到文档级搜索,这种粗粒度的知识管理已经难以满足实际应用中细粒度的知识获取需求。

最后,跨媒体协同搜索。传统搜索以面向单质单源数据的搜索居多,难以满足用户的信息检索需求。比如,针对文本的搜索难以借助视频、图片信息,针对图片的搜索主要还是利用图片自身的信息,对于大量文本信息的利用率还不高。跨媒体的协调搜索需求日益增多。

基于知识图谱的智能搜索是一种基于长尾的搜索,搜索引擎以知识卡片的形式将搜索结果展现出来。用户的查询请求将经过查询式语义理解与知识检索两个阶段:1) 查询式语义理解。知识图谱对查询式的语义分析主要包括:① 对查询请求文本进行分词、词性标注以及纠错;② 描述归一化,使其与知识库中的相关知识进行匹配[114];③ 语境分析。在不同的语境下,用户查询式中的对象会有所差别,因此知识图谱需要结合用户当时的情感,将用户此时需要的答案及时反馈给用户;④ 查询扩展。明确了用户的查询意图以及相关概念后,需要加入当前语境下的相关概念进行扩展。2) 知识检索。经过查询式分析后的标准查询语句进入知识库检索引擎,引擎会在知识库中检索相应的实体以及与其在类别、关系、相关性等方面匹配度较高的实体[115]。通过对知识库的深层挖掘与提炼后,引擎将给出具有重要性排序的完整知识体系。智能搜索引擎主要以3种形式展现知识:1) 集成的语义数据。例如当用户搜索梵高,搜索引擎将以知识卡片的形式给出梵高的详细生平,并配合以图片等信息;2) 直接给出用户查询问题的答案。例如当用户搜索“姚明的身高是多少?”,搜索引擎的结果是“226 cm”;3) 根据用户的查询给出推荐列表[7]等。

(徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述. 电子科技大学学报, 2016, 45(4): 589–606. [doi: 10.3969/j.issn.1001-0548.2016.04.012]

1.3.3 智能推荐

第一,场景化推荐。任何搜索关键词、购物车里的任何意见商品背后,都体现着特定的消费意图,很有可能对应到特定的消费场景。建立场景图谱,实现基于场景图谱的精准推荐,对于电商推荐而言至关重要。

第二,冷启动阶段下的推荐。利用来自知识图谱的外部知识,特别是关于用户与物品的知识,增强用户与物品的描述,提升匹配精度,是让系统尽快度过冷启动阶段的重要思路。

第三,跨领域推荐。互联网上存在大量异质平台,实现平台之间的跨领域推荐有着越来越多的应用需求。

第四,知识型的内容推荐。如果用户在电商平台搜索奶粉,那么为用户推荐一些关于和奶粉的婴儿每天的需水量、常见疾病的预防的育儿知识。对这些知识的推荐将显著增强用户对于所推荐内容的信任与接收程度。消费行为背后的内容与知识需求将成为推荐的重要考虑因素。

1.3.4 自然人机交互

智能系统另一个非常重要的表现形式是自然人机交互。人机交互将会变得越来越自然、越来越简单。越是自然、简单的交互方式越要求机器具备强大的智能。自然人机交互包括自然语言问答、对话、体感交互、表情交互等。自然语言交互的实现要求机器能够理解人类的自然语言。对话式交互(conversation UI)、问答式交互(QA)将逐步代替传统的关键词搜索式交互。另一个非常重要的趋势是一切皆可问答。

问答系统(Question Answering, QA)是指让计算机自动回答用户所提出的问题,是信息服务的一种高级形式。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。华盛顿大学图灵中心主任Etzioni 教授2011 年曾在Nature 上发表文章《Search Needs a Shake-Up》,其中明确指出:“以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态”[Etzioni O., 2011]。因此,问答系统被看做是未来信息服务的颠覆性技术之一,被认为是机器具备语言理解能力的主要验证手段之一。

1.3.5 决策支持

知识图谱为决策支持提供深层关系发现与推理能力。人们越来越不满足于“某某是某某的妻子”这样的简单关联的发现,而希望发现和挖掘一些深层、隐藏的关系。在金融领域,我们可能十分关注投资关系,比如,为何某个投资人投资某家公司;我们十分关注金融安全,比如,信贷风险评估需要分析一个贷款人的关联人物和关联公司的信用评级。因此,建立包含各种语义关联的知识图谱,挖掘实体之间的深层关系,已经成为决策分析的重要辅助手段。

在军事领域的决策支持体现在?

通过对战场态势的评估,建立战场实体关系库,运用大数据分析技术,提供科学的决策辅助。

1.4 未来研究方向

知识图谱提供了一种新的方法来实现知识的表示、存储和管理, 逐渐受到关注并获得一定的研究进展. 本文在介绍了知识图谱的构建、存储和应用等方面的基础上, 阐述了知识图谱与本体间的关系. 通过分析了国内外已有的知识图谱, 可见知识图谱的研究已有一定的成果, 未来的研究方向在于:

(1) 知识图谱的分布式存储. 由于知识图谱的结构特殊性, 随着数据量的增大, 如何将其进行分布式存储是一个具有现实意义的问题. 该问题包括有如何将知识图谱进行合理分割存储而不影响其功能, 知识图谱的负载均衡, 知识图谱的存储模型等.

(2) 知识图谱的推理. 知识图谱的构建推理能支持知识图谱的构建, 通过检测原有的知识是否存在逻辑矛盾以及从已知知识中发现未知的关系, 保证知识图谱的一致性与完整性, 又能丰富和扩展知识图谱. 另一方面, 知识图谱的应用推理也值得关注. 通过添加领域内的知识规则, 知识图谱的应用推理可以实现领域知识的推论, 辅助自动决策、智能问答和预测等.

(3) 目前已有的知识图谱大部分使用率和重用率不高, 甚至在构建工作完成以后就被搁置; 而另一方面,有实际需求的企业却缺少构建知识图谱的渠道. 针对这种情况, 未来可以考虑: ① 加强知识图谱以及本体构建工程的知识理论体系建设, 以及相关人才的培养. ②加大通用知识图谱的构建力度, 而行业知识图谱则只在有实际需求时再根据情况构建. ③ 继续加强知识图谱以及本体自动构建方法的研发, 提高构建过程的自动化程度.

参考文献

《知识图谱:概念与技术》肖仰华等编著;

黄恒琪,于娟,廖晓, 等.知识图谱研究综述[J].计算机系统应用,2019,28(6):1-12. DOI:10.15888/j.cnki.csa.006915.

发布了3 篇原创文章 · 获赞 2 · 访问量 3556

猜你喜欢

转载自blog.csdn.net/qq_37108780/article/details/104713715