知识图谱入门学习笔记(四)-知识抽取之问题和方法

目录

知识抽取基础:问题和方法

1 问题分析

1.1 知识抽取的场景数据源

1.2 从信息抽取到知识抽取

1.3 知识抽取的例子

1.4 知识提取的挑战

2 知识抽取场景和方法

2.1 面向结构化的数据知识抽取

2.1.1 从关系数据库中抽取知识

2.2 面向半结构化数据的知识抽取

2.2.1 linked data 核心数据集

2.2.2YAGO百科知识抽取

2.2.3 ZhiShi,me

2.3 面向无结构数据的知识抽取

2.3.1 实体识别

2.3.2 关系抽取

2.3.3 事件抽取:


知识抽取基础:问题和方法

1 问题分析

1.1 知识抽取的场景数据源

  • (半)结构化文本数据:百科知识中的Inforbox、规范的表格、数据库、社交网络等

  • 非结构化文本数据:网页、新闻、社交媒体、论文等

  • 多媒体数据:图片、视频

1.2 从信息抽取到知识抽取

  • IE(信息抽取):非结构转为结构进行抽取
  • KE(知识抽取):提取为可以便于推理表示的数据存储

区别:信息抽取获得结构化数据,知识抽取获得机器可理解和处理的知识( 知识表示)。
关系:知识抽取建立在信息抽取基础上,都普遍利用到自然语言处理技术、基于规则的包装器和
机器学习等技术。

1.3 知识抽取的例子

1.4 知识提取的挑战

1.4.1 知识的不明确:

知识的不完备性

  • 关系确实

  • 标签/属性缺失

  • 实体缺失

知识的不一致性

2 知识抽取场景和方法

2.1 面向结构化的数据知识抽取

2.1.1 从关系数据库中抽取知识

抽取原理

  • 表(Table)-类(Class)
  • 列(Column)-属性(Property)
  • 行(Row) -资 源/实例(Resource/Instance)
  • 单元(Cell)-属性值Property Value)
  • 外键(Foreign Key)- - 指代(Reference)

从关系数据库中抽取知识

抽取标准:

  • Direct Mapping 

  • R2RML

抽取工具

  • D2R,Vrituoso,Orcle SW, Morph等
  • R2RML映射语言

输入:数据库表、视图、SQL查询
输出.三元组

实例:

“员工”和“部门”两个关系数据库表

该数据库表映射的RDF

步骤;

  • 1抽取类
  • 2抽取属性
  • 3.抽取实例
  • 4.建立类之间关系

2.2 面向半结构化数据的知识抽取

大规模多语言百科知识图谱,维基百科的结构化版本

2.2.1 linked data 核心数据集

覆盖127种语言,两千八百万个实体,数亿三元组,支持数据集的完全下载固定模式对实体信息进行抽取,包括abstract,infobox, category, page link等
比如百科知识的抽取

2.2.2YAGO百科知识抽取

特点:

  • YAGO整合了WikiPedia与WordNet
  • 覆盖多种语言,1000万个实体,1.2亿个三元组
  • 在YAGO2整合了GeoNames,增加了对时空信息的支持
  • 通过规则对实体信息进行抽取与推断

YAGO的百科知识抽取

2.2.3 ZhiShi,me

2.3 面向无结构数据的知识抽取

2.3.1 实体识别

抽取文本中的原子信息

  • 人名

  • 组织/机构
  • 地理位置
  • 时间/日期
  • 字符
  • 金额

2.3.2 关系抽取

关系抽取指实体间的语义关系

2.3.3 事件抽取:

事件抽取例子

猜你喜欢

转载自blog.csdn.net/qq_37457202/article/details/108473028