知识图谱随笔

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Class_guy/article/details/86503298

知识图谱构建方式:

自顶向下,自底向上

自顶向下:

先为知识图谱定义好本体与数据模式,再将实体加入到实体库。

注意:此种方式需要利用一些现有的结构化知识库作为基础知识库。

自底向上:

从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。

行业知识库也称为垂直型知识库。

Extract KBs 涉及两个关键技术:

 1.实体链接:

指将文档中的实体名字链接到知识库中特定的实体上。

  • 实体识别
  • 实体消歧

2.关系抽取:

即将文档中的实体关系抽取出来,主要涉及到:

  • 词性标注
  • 语法分析
  • 依存关系树
  • 构建分类器

知识图谱搭建步骤:

知识抽取 -> 知识融合 -> 知识推理

扫描二维码关注公众号,回复: 5127319 查看本文章

知识抽取:

从一些公开的半结构化和非结构化的数据中提取出实体,关系,属性等知识要素。

知识融合:

消除实体,关系,属性等指称项与事实项之间的歧义,形成高质量的知识库。

知识推理:

在已有的知识库基础上进一步挖掘隐含的知识,从而丰富,扩展知识库。

  • 基于逻辑的推理
  • 基于图的推理

知识抽取重点:实体抽取或命名实体识别

  • 基于规则与词典的方法
  • 基于统计机器学习的方法
  • 面向开放域的抽取方法

事实并不等于知识,它只是知识的基本单位。

知识加工:本体构建,质量评估。

本体概念:

本体是同一领域内不同主体之间进行交流、连通的语义基础,其主要呈现树状结构,相邻的层次节点或概念之间具有严格的 “IsA” 关系,有利于进行约束、推理等,却不利于表达概念的多样性。

本体在知识图谱中的地位相当于知识库的模具。通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

质量评估:

对知识库的质量评估任务通常是与实体对齐任务一起进行的。意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。

知识更新:

  1. 模式更新:指本体库中元素的更新,包括概念的增加、修改、删除;概念属性的更新以及概念之间上下位关系的更新等。
  2. 数据层更新:指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值。

查询式语义理解:

  1. 对查询请求文本进行分词、词性标注以及纠错
  2. 描述归一化,使其与知识库中的相关知识进行匹配
  3. 语境分析

多数问答系统更倾向于将给定的问题分解为多个小的问题,然后逐一去知识库中抽取匹配的答案。

医学知识图谱:

医学知识表示:

医学知识抽取,包括实体,关系和属性的抽取

医学知识融合:

医学知识推理,质量评估

医学领域本体的构建需要深入分析医学术语的结果和概念,才能将晦涩甚至是跨语言的医学知识有效的表达出来。

数据:

医学知识本体库:医学概念知识库LinkBase, TAMBIS本体库(Tao)

电子病历标注语料(用统计学和机器学习方法进行实体识别)

自动AVP抽取:

对于形式各异,半结构化的医药站点和垂直文本来说,通常是构建面向站点的包装器,从待抽取站点采样并标注n个典型的详细页面,利用这些页面通过模式学习自动构建出一个或多个Xpath表示的模式,然后将其应用在该站点的其它详细页面中,从而实现自动化的AVP抽取。

KBQA的特点:

   1.答案:回答的答案时知识库中的实体或实体关系,或no-answer。

而对话系统回复的是自然语言句子,有时甚至需要考虑上下文语境。

     2.评价指标:召回率和精确率。

KBQA 更适合回答 what, when 等事实性问题。

DBQA 更适合回答why how 等解释性,描述性问题。

流程:

问句 -> 语义解析 -> 语义表示 -> [ 语义匹配,查询, 推理 ] <--> 知识库

问题解析:

基于语义分析的方法:首先将自然语言形式的问句转换为某种逻辑表达形式,然后查询知识库,找到问题的答案。

  • lambda表达式
  • 依存组合语义树

基于检索的方法:首先通过粗略的方式从知识库中获取一系列的候选答案,然后抽取候选答案问句与候选答案间的关系等方面的特征,对候选答案进行排序,选择排名靠前的作为最终的答案。

猜你喜欢

转载自blog.csdn.net/Class_guy/article/details/86503298