知识抽取基础：问题和方法

1 问题分析

1.1 知识抽取的场景数据源

1.2 从信息抽取到知识抽取

2.2.1 linked data 核心数据集

知识抽取基础：问题和方法

1 问题分析

1.1 知识抽取的场景数据源

(半)结构化文本数据:百科知识中的Inforbox、规范的表格、数据库、社交网络等
非结构化文本数据:网页、新闻、社交媒体、论文等
多媒体数据：图片、视频

1.2 从信息抽取到知识抽取

IE（信息抽取）：非结构转为结构进行抽取
KE(知识抽取)：提取为可以便于推理表示的数据存储

区别:信息抽取获得结构化数据，知识抽取获得机器可理解和处理的知识( 知识表示)。
关系:知识抽取建立在信息抽取基础上，都普遍利用到自然语言处理技术、基于规则的包装器和
机器学习等技术。

1.3 知识抽取的例子

1.4 知识提取的挑战

1.4.1 知识的不明确：

知识的不完备性

关系确实
标签/属性缺失
实体缺失

知识的不一致性

2 知识抽取场景和方法

2.1 面向结构化的数据知识抽取

2.1.1 从关系数据库中抽取知识

抽取原理

表(Table)-类(Class)
列(Column)-属性(Property)
行(Row) -资源/实例(Resource/Instance)
单元(Cell)-属性值Property Value)
外键(Foreign Key)- - 指代(Reference)

从关系数据库中抽取知识

抽取标准：

Direct Mapping
R2RML

抽取工具

D2R,Vrituoso,Orcle SW, Morph等
R2RML映射语言

输入:数据库表、视图、SQL查询
输出.三元组

实例：

“员工”和“部门”两个关系数据库表

该数据库表映射的RDF

步骤；

1抽取类
2抽取属性
3.抽取实例
4.建立类之间关系

2.2 面向半结构化数据的知识抽取

大规模多语言百科知识图谱，维基百科的结构化版本

2.2.1 linked data 核心数据集

覆盖127种语言，两千八百万个实体，数亿三元组，支持数据集的完全下载固定模式对实体信息进行抽取，包括abstract,infobox, category, page link等
比如百科知识的抽取

2.2.2YAGO百科知识抽取

特点：

YAGO整合了WikiPedia与WordNet
覆盖多种语言，1000万个实体，1.2亿个三元组
在YAGO2整合了GeoNames，增加了对时空信息的支持
通过规则对实体信息进行抽取与推断

YAGO的百科知识抽取

2.2.3 ZhiShi,me

2.3 面向无结构数据的知识抽取

2.3.1 实体识别

抽取文本中的原子信息

人名
组织/机构
地理位置
时间/日期
字符
金额

2.3.2 关系抽取

关系抽取指实体间的语义关系

2.3.3 事件抽取：

事件抽取例子

知识图谱入门学习笔记（四）-知识抽取之问题和方法

知识抽取基础：问题和方法

1 问题分析

1.1 知识抽取的场景数据源

1.2 从信息抽取到知识抽取

1.3 知识抽取的例子

1.4 知识提取的挑战

2 知识抽取场景和方法

2.1 面向结构化的数据知识抽取

2.1.1 从关系数据库中抽取知识

2.2 面向半结构化数据的知识抽取

2.2.1 linked data 核心数据集

2.2.2YAGO百科知识抽取

2.2.3 ZhiShi,me

2.3 面向无结构数据的知识抽取

2.3.1 实体识别

2.3.2 关系抽取

2.3.3 事件抽取：

猜你喜欢