UCAS-AI学院-知识图谱专项课-第1讲-课程笔记

知识图谱概述

什么是知识图谱

  • 人工智能三个阶段
    • 计算智能(运算和存储)
    • 感知智能(与自然界进行交互)
    • 认知只能(人在感知和互动的过程中形成的理性认识)——与知识密不可分
  • 数据:反应客观事物运动状态的感知信号,人脑感知的最原始记录
    • 未经加工解释
    • 与其他数据没有联系
    • 不具有语义,不能回答任何问题
  • 信息:经过加工和解释,通过某种关联而具有含义的数据
  • 知识:经过挑选、改造形成的,可以用于决策的,系统化的信息
  • 知识工程:数据、信息 -》 知识
  • 知识的类型:
    • 陈述性知识:描述可挂事务的性状和关系等静态信息,分为事物(特定)、概念(一类)、命题(事物间关系)三层次
    • 过程性知识:描述问题和求解等动态信息,包括规则(因果)和控制结果(求解步骤)
  • 知识库:对各种知识进行收集和整理的基础上,进行形式化表示,按照一定方法存储,并提供查询手段
    • 知识共享和应用的基础
    • 知识图谱是知识库的一种形式
  • 大数据知识工程:杨计算机更加有效地管理和利用信息
    • 知识化:结构化、关联化
    • 特点:大规模、开放域、多维度、自学习
  • 知识图谱:图的结构
    • 结构化三元组——实体及其关系: G = ( E , R , S ) ,   S R × E × E \mathcal G = (\mathcal E, \mathcal R, \mathcal S) ,\ \mathcal S \subseteq \mathcal R \times \mathcal E \times \mathcal E
    • 三元组元素:头实体、尾实体、实体间关系
    • 关系有时也称为属性,尾实体此时即属性值
    • 实体为节点,关系为链接节点的有向边
  • 知识图谱特点:
    • 结构化,利用图对结构建模
    • 关联化,多来源知识自然关联
    • 规范化,语义网框架,便于分享和利用
  • 人工智能的重要基础设施

知识图谱发展历程

  • 人工智能:知识的数据化——让计算机表示、组织和存储人类的知识
  • 语义网:数据的知识化——让数据支持推理等只能任务
  • 知识图谱:基于语义网络理论,依据语义网的技术框架和工程规范,对互联网数据进行知识化的一个知识工程产品

知识图谱的类型和代表性知识图谱

实体、关系和词语

  • 实体(Entity):客观存在并可相互区别的事物,可以为具体的人、物、事,也可以是抽象概念
  • 关系(Relation):不同实体之间的各种联系
    • 分类学关系(Taxonomic)——隶属、层级
    • 非分类学关系——部分整体、论旨决策、属性、领属、因果
  • 词语(Word and Phrases):用于描述实体、关系这些认知单元的语言单位
    • 实体和关系又确切含义
    • 词语是有歧义的

本体、知识库和数据库

  • 本体(Ontology):一套对客观世界进行描述的共享概念化体系
    • 对数据的定义进行描述,而非描述具体事物的实例数据
    • 概念、关系和公理
    • 形式化本体:大量使用公理
    • 轻量级本体:不用或少量使用公理
  • 知识库(Knowledge Base)服从于Ontology控制的知识实例及其载体
  • 数据库(Database):为用电脑表示和存储计算机应用中所需要的数据设计开发的产品

分类法、本体和社会分类法

  • 分类法(Taxonomy):有专家编制的专业层次类别体系
    • 也有一些不严格的分类体系
  • 本体:共享概念的规范
    • 涵盖概念之间的分类体系,更重要的是有概念之间的相关关系,以及在此基础上的推理规则
    • 具有严格规范,用户难以构建
  • 社会分类法(Folksonomy):有用户的自由标签自动形成的分类法
    • 标签方法,并不一定分类体系
    • 标签具有随意性(歧义)

知识的类型

  • 语言知识:语言层面的知识
  • 百科知识:涵盖各个行业、领域的通用知识
  • 领域知识:某个特定领域内的专业知识
  • 场景知识:某个特定场景下或者需要完成某项任务是所需要的知识
  • 常识知识:大家都认可的知识
  • 每种知识类型都可以由对应类型的知识图谱

代表性知识图谱

  • Cyc

    • Terms + Assertions
    • 支持演绎推理和归纳推理
    • 依赖专家,依赖一阶谓词逻辑不够灵活
  • WordNet

    • 英文词汇语义知识库
    • 语义场理论
    • 人工标注,组件语义概念网络
    • 同义词集,对应语义概念
  • FrameNet

    • 词汇语义知识库
    • 框架语义学理论
    • 语义框架:对词语蕴含概念的知识预设——知识架构和概念工具
    • 具有层级的组织结构
  • HowNet

    • 对概念之间的关系以及概念属性之间的关系进行描述形成的网状知识系统
    • 义原对概念进行描述,义原之间由义原关系关联,形成网状系统
  • ConceptNet

    • 由描述概念及其关系的常识构成的一个开放、多语言尝试知识图谱
    • 帮助计算机理解日常单词的意义
    • 更接近WordNet,但是包含的关系更多
    • 节点为词语,有歧义的通过词性、类别消除
  • Wikipedia

    • 免费的在线百科全书
    • 文档结构:每个页面定义了一个确定性的实体,超链接形成了词语的映射关系
    • 基于Wikipedia的知识库都是从中挖掘知识,但是不同的知识库对于节点标记、歧义处理、分类学设计等等都用不同的处理
  • 基于Wikipedia知识库的构建策略

    • 通过页面title、超链接词汇确定实体集合
    • 实体被划分到不同的类别
    • 类别通过上下位等关系相互关联
    • 实体和类别都通过属性和相互之间的关系描述
    • 关系可以通过蕴含关系进行推理
  • DBPedia

    • 社区构建
  • YAGO

    • 基于WordNet的知识体系,将Wikipedia的词条与之关联
    • 语言本体与世界知识融合
  • BabelNet

    • 多语言词汇语义网络和本体
    • 加入多语言支持
  • FreeBase

    • 使用群体只能方法建立的完全结构化的知识资源
  • 词汇 vs. 实体

  • 语言 vs. 百科 vs. 常识

  • 人工构建 vs. 机器构建

  • 基于本体 vs. 基于分类体系

知识图谱的生命周期

知识本体构建

  • 知识建模
  • 用什么样的方式表示知识,对目标知识进行描述
    • 类被体系
    • 实体、概念
    • 语义关系
    • 推理规则
  • 输入:领域、应用场景
  • 输出:领域知识本体
  • 关键技术:本体工程
  • 采用语义网的知识建模方式
    • 概念
    • 关系
    • 概念关系
    • 使用资源描述框架RDF进行描述
      • 资源(对象)
      • 谓词(特征和资源的关系)
      • 陈述:RDP三元组<S, P, O>

知识获取和验证

  • 输入:领域知识本体、海量数据
  • 输出:实例知识(实体集合、关系、属性)
  • 主要技术:信息挖掘、文本抽取
  • 估计知识的可信度

知识融合

  • 知识集成
  • 碎片组装成网络
  • 输入:抽取的知识、知识本体、现有知识库
  • 输出:统一知识库、知识置信度
  • 关键技术:本体匹配、实体链接
  • 任务:对不同来源、不同语言或者不同结构的知识进行融合,从而对已有知识不断去重、更新
  • 分为知识本体融合(知识体系的融合)和知识实例融合
  • 亦可分为竖直方向的融合(不同层次)以及水平方向的融合(同层次)

知识存储和查询

  • 输入:大规模知识图谱
  • 输出:知识库存储结构、查询服务
  • 主要技术:知识表示、知识查询语言、存储、检索引擎
  • RDF图模型:
    • RDF三元组,以文本形式逐行存储
    • 查询语言SPARQL
  • 属性图模型:
    • 五元组 G = ( V , E , ρ , λ , σ ) G= (V, E, \rho, \lambda, \sigma)
    • 后三项:关联,赋予标签、关联属性赋值
    • 查询语言:Cypher

知识推理

  • 任务:采用推理的手段发现已有知识中隐含的知识
  • 输入:大规模知识图谱
  • 输出:隐含知识
  • 主要技术:基于逻辑规则的推理(符号)、基于表示学习的推理(数字)
  • 符号推理:在图谱中的实体和关系符号上直接进行推理
    • 本质:学习并应用推理规则
    • 学习推理规则(归纳)
    • 应用规则推理具体事实(演绎)
  • 数值推理:使用数值计算(向量矩阵计算),捕捉知识图谱上隐式的关联
    • 本质:分布式知识表示
    • 核心思想:将符号化的实体和关系在低维连续限量空间进行表示

知识应用

  • 语义搜索
  • 问答(有推理能力)
  • 推荐

知识图谱和深度学习

  • 知其然AI - 》知其所以然AI——可解释性
发布了16 篇原创文章 · 获赞 0 · 访问量 80

猜你喜欢

转载自blog.csdn.net/cary_leo/article/details/105619980