知识图谱学习备忘录

学习过程的思考

1. 基于知识图谱的问答系统“ 这一题目的要求是通过知识图谱优化对问题(由自然语言描述)的认识的。由于有知识图谱作为背景知识可以帮助机器理解用户提问的问题。

2. 人类看到某种东西:利用图像处理识别物体轮廓、色彩,然后提取特征,将提取到的特征与知识库中的概念实体对应,完成理解过程。

疑问

我们其实可以认为知识图谱就包含两种节点类型,资源和字面量。借用数据结构中树的概念,字面量类似叶子节点,出度为0。现在读者应该知道为什么我会说之前那幅图不准确,并会误导大家对知识图谱的理解了吧。"罗纳尔多·路易斯·纳萨里奥·德·利马"作为字面量,是不能有指向外部节点的边的,况且之前的图并不能直观地体现知识图谱中资源/实体(用IRI表示)这样一个极其重要的概念。

schema层

来自:https://zhuanlan.zhihu.com/p/31726910

要点摘录

在表现形式上,语义网络和知识图谱相似,但语义网络更侧重于描述概念与概念之间的关系,(有点像生物的层次分类体系——界门纲目科属种),而知识图谱则更偏重于描述实体之间的关联。

其实,本质上,语义网、链接数据还有Web 3.0都是同一个概念,只是在不同的时间节点和环境中,它们各自描述的角度不同。它们都是指W3C制定的用于描述和关联万维网数据的一系列技术标准,即,语义网技术栈

来自:https://zhuanlan.zhihu.com/p/31726910

真正可以模拟人的能力,我们把它们分成两层:感知层和认知层。我们知道,每个人通过眼睛、耳朵等来感知这个世界,所以,我们要做计算机视觉相关的图像、视频技术,也要做 AR、VR 技术,还要做和人的听觉相关的语音技术,如语音识别等等。应该说,感知能力不仅人有,很多动物也有,甚至有的动物听觉比人强,有的动物视觉比人强。而认知是人特有的,语言是人区别于其他动物的能力。同时,知识也是人不断进步的重要基础。我们除了要有认识客观世界的知识,人和人之间还要交互,以及对人的理解,这就是认知层的技术要解决的。

这是从数据到信息、到知识、到智能的“金字塔”。比如我们看到 95 这个数字,我们都知道这是数字,但它意味着什么呢?如果我不给你更多的信息,你只知道它是一个数字,如果我告诉你,这是今天的 PM2.5 指数,那 95 这个数字就变成了一条有用的信息。但是如果我没有背景知识,不知道 PM2.5 是 95 意味着什么,这个信息对我的价值也不大,95 是好还是不好呢,不知道。如果这时候有知识,我知道 95 意味着空气质量大概是良,这就已经是有知识了。进一步,我可以知道这个指数可以正常户外活动,但敏感人群应该减少外出,这就是从信息到知识到智能的过程。

来自:王海峰https://www.infoq.cn/article/2017/11/Knowledge-map-cornerstone-AI

知识图谱是实现机器认知智能的基础。机器认知智能的两个核心能力:“理解”和“解释”,均与知识图谱有着密切关系。首先需要给机器“理解与解释”提出一种解释。我认为机器理解数据的本质是建立起从数据到知识库中的知识要素(包括实体、概念和关系)映射的一个过程

比如如果我说到“2013年的金球奖得主C罗”这句话,我们之所以说自己理解了这句话,是因为我们把“C罗”这个词汇关联到我们脑子中的实体“C罗”,把“金球奖”这个词汇映射到我们脑中的实体“金球奖”,然后把“得主”一词映射到边“获得奖项”这个关系。我们可以仔细体会一下我们的文本理解过程,其本质是建立从数据(包括文本、图片、语音、视频等)到知识库中的实体、概念、属性映射的过程。

再来看人类是如何“解释”的。比如我问“C罗为什么那么牛?”,可以通过知识库中的“C罗获得奖项金球奖”以及“金球奖地位影响力最大的足球奖项之一”这两条关系来解释这一问题。

这一过程的本质就是将知识库中的知识与问题或者数据加以关联的过程。有了知识图谱,机器完全可以重现我们的这种理解与解释过程。有过一定计算机研究基础的,是不难完成上述过程的数学建模的。知识图谱对于机器认知智能的重要性也体现在下面几个具体方面。

实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。

以这四个条件去看知识表示就会发现,只有知识图谱是满足所有这些条件的:知识图谱规模巨大,动辄包含数十亿实体;关系多样,比如在线百科图谱DBpedia包含数千种常见语义关系;结构友好,通常表达为RDF三元组,这是一种对于机器而言能够有效处理的结构;质量也很精良,因为知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。
--------------------- 
作者:AI科技大本营 
来源:CSDN 
原文:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/83451280 
版权声明:本文为博主原创文章,转载请附上博文链接!

问答系统研究的核心在于问题语义和知识语义的理解和匹配,也是计算机理解人类语言和知识表达的关联,跨越语义鸿沟的关键。人类倾向于使用多样化、非结构化的表达来描述问题和知识,而计算机则偏爱唯一化、结构化的知识。问答系统的研究,直接作用于缩短和跨越这一语义鸿沟,将多样而模糊的问题语义,映射到具体而唯一的计算机知识库中。

优秀的问答系统有两个关键点:精确的问题理解和高质量的知识来源。近年来随着大数据的发展,这两点纷纷迎来了数据层面的发展契机。

以下,知识图谱问答系统的一个典型功能流图

来源:基于知识图谱的问答系统浅析

 

有时候会把一些实体称为topic,如Justin Bieber。实体关系也可分为两种,一种是属性property,一种是关系relation。

像维基百科这样的知识库,与整个互联网相比,仍只能算沧海一粟。知识库的另外一种类型,则是以Open Information Extraction (Open IE)Never-Ending Language Learning (NELL) 为代表的Extracted KBs,它们直接从上亿个网页中抽取实体关系三元组。与Freebase相比,这样得到的知识更加具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,

Extracted KBs 知识库涉及到的两大关键技术是

实体链指(Entity linking) :实体识别 (Entity Recognition) 与实体消歧 (Entity Disambiguation)

关系抽取 (Relation extraction),即将文档中的实体关系抽取出来,主要涉及到的技术有词性标注 (Part-of-Speech tagging, POS),语法分析,依存关系树 (dependency tree) 以及构建SVM、最大熵模型等分类器进行关系分类等。

发布了17 篇原创文章 · 获赞 0 · 访问量 2456

猜你喜欢

转载自blog.csdn.net/Ike_Lin/article/details/88907092