知识图谱构建方式：

自顶向下，自底向上

自顶向下：

先为知识图谱定义好本体与数据模式，再将实体加入到实体库。

注意：此种方式需要利用一些现有的结构化知识库作为基础知识库。

自底向上：

从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式。

行业知识库也称为垂直型知识库。

Extract KBs 涉及两个关键技术：

1.实体链接：

指将文档中的实体名字链接到知识库中特定的实体上。

实体识别
实体消歧

2.关系抽取：

即将文档中的实体关系抽取出来，主要涉及到：

词性标注
语法分析
依存关系树
构建分类器

知识图谱搭建步骤：

知识抽取 -> 知识融合 -> 知识推理

扫描二维码关注公众号，回复： 5127319 查看本文章

知识抽取：

从一些公开的半结构化和非结构化的数据中提取出实体，关系，属性等知识要素。

知识融合：

消除实体，关系，属性等指称项与事实项之间的歧义，形成高质量的知识库。

知识推理：

在已有的知识库基础上进一步挖掘隐含的知识，从而丰富，扩展知识库。

基于逻辑的推理
基于图的推理

知识抽取重点：实体抽取或命名实体识别

基于规则与词典的方法
基于统计机器学习的方法
面向开放域的抽取方法

事实并不等于知识，它只是知识的基本单位。

知识加工：本体构建，质量评估。

本体概念：

本体是同一领域内不同主体之间进行交流、连通的语义基础，其主要呈现树状结构，相邻的层次节点或概念之间具有严格的 “IsA” 关系，有利于进行约束、推理等，却不利于表达概念的多样性。

本体在知识图谱中的地位相当于知识库的模具。通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

质量评估：

对知识库的质量评估任务通常是与实体对齐任务一起进行的。意义在于，可以对知识的可信度进行量化，保留置信度较高的，舍弃置信度较低的，有效确保知识的质量。

知识更新：

模式更新：指本体库中元素的更新，包括概念的增加、修改、删除；概念属性的更新以及概念之间上下位关系的更新等。
数据层更新：指的是实体元素的更新，包括实体的增加、修改、删除，以及实体的基本信息和属性值。

查询式语义理解：

对查询请求文本进行分词、词性标注以及纠错
描述归一化，使其与知识库中的相关知识进行匹配
语境分析

多数问答系统更倾向于将给定的问题分解为多个小的问题，然后逐一去知识库中抽取匹配的答案。

医学知识图谱：

医学知识表示：

医学知识抽取，包括实体，关系和属性的抽取

医学知识融合：

医学知识推理，质量评估

医学领域本体的构建需要深入分析医学术语的结果和概念，才能将晦涩甚至是跨语言的医学知识有效的表达出来。

数据：

医学知识本体库：医学概念知识库LinkBase, TAMBIS本体库（Tao）

电子病历标注语料（用统计学和机器学习方法进行实体识别）

自动AVP抽取：

对于形式各异，半结构化的医药站点和垂直文本来说，通常是构建面向站点的包装器，从待抽取站点采样并标注n个典型的详细页面，利用这些页面通过模式学习自动构建出一个或多个Xpath表示的模式，然后将其应用在该站点的其它详细页面中，从而实现自动化的AVP抽取。

KBQA的特点：

1.答案：回答的答案时知识库中的实体或实体关系，或no-answer。

而对话系统回复的是自然语言句子，有时甚至需要考虑上下文语境。

2.评价指标：召回率和精确率。

KBQA 更适合回答 what, when 等事实性问题。

DBQA 更适合回答why how 等解释性，描述性问题。

流程：

问句 -> 语义解析 -> 语义表示 -> [ 语义匹配，查询，推理 ] <--> 知识库

问题解析：

基于语义分析的方法：首先将自然语言形式的问句转换为某种逻辑表达形式，然后查询知识库，找到问题的答案。

lambda表达式
依存组合语义树

基于检索的方法：首先通过粗略的方式从知识库中获取一系列的候选答案，然后抽取候选答案问句与候选答案间的关系等方面的特征，对候选答案进行排序，选择排名靠前的作为最终的答案。

知识图谱随笔