3 知识抽取与挖掘(上)

知识抽取任务定义和相关比赛

知识可以来自于关系型数据库、外部的开放知识图谱的数据、客户的日志等结构化数据以及表格、关键词、引用等半结构化数据和文本数据、多媒体数据等非结构化数据。

Data acquisition->LD Dataset(Vocabulary Mapping->Interlinking->Cleansing->Integrated Dataset)->Access(Publishing->SPARQL Endpoint)->Application

知识抽取技术：

从不同来源、不同结构的数据中进行知识提取，形成知识存入到KG

实体抽取

关系抽取

事件抽取

从结构化数据库中获取知识：D2R——复杂表数据的处理

从连接数据中获取知识：图映射——数据对齐

从半结构化(网站)数据中获取知识：使用包装器——方便的包装器定义方法，包装器自动生成、更新与维护

从文本中获取知识：信息抽取——结果的准确率与覆盖率

子任务：

命名实体识别：检测/分类

术语抽取：从语料中发现多个单词组成的相关术语

关系抽取：特定指二元关系

确定触发词->根据触发词下特定的槽抽取宾语

共指消解(主语的确定)

比赛：

MUC：

正规文本抽取

命名实体识别——NER

共指消解——CR

ACE：

对MUC融合、分类、细化

实体检测和识别——EDR——细化了实体分类(person/organizations.....)

数值检测与识别——VAL(百分比/钱/邮箱.......)

事件表达检测与识别——TERN

关系检测与识别——RDR

事件检测与识别——VDR

KBP：

对ACE的进一步修订

实体发现与链接——EDL——需要知识库中唯一URL去链接实体

槽填充——SF——事件/多元关系抽取，对于谓语填充主语和宾语

事件抽取——Event

信念和情感——BeSt——抽取知识的额外描述

整合任务：端到端冷启动知识构建——对数据层进行学习和扩充

SemEval：

国际权威的词义消歧评测

一、面向非结构化数据的知识抽取

1、实体抽取：

抽取文本中的原子信息元素(person/organizations.....)

序列标注方法：

人工特征(词本身的特征/前后缀特征/字本身的特征)

IOB标注体系：O(Others)/B-ORG(组织开始字)/I-ORG(组织中间词)....

HMM：隐马尔科夫模型——有向图模型/生成式模型/假设特征之间是独立的

CRF：条件随机场——无向图模型/判别式模型/没有关于特征之间是独立的

LSTM+CRF：深度学习和机器学习相结合

word embeddings->Bi-LSTM encoder->CRF Layer

实体识别与链接：

小白，我想听一首海阔天空(应对新兴实体)->rdf:type MuisicWork(处理大规模细粒度实体识别)->找到音乐KG中的内容->执行消歧->完成链接

文本->实体指称识别->候选实体生成->候选实体消歧->链接

开源工具：

Wikipedia Miner

DBpedia Spotligth

OpenCalais

2、关系抽取：

信息抽取研究领域任务之一，从文本中抽取两个或多个实体之间的语义关系

抽取元组->清理->融合->人工审核->KG

基于模板：

基于触发词的Pattern

基于依存句法分析的Pattern：以动词为起点，构建规则，对节点上的词性和边上的依存关系进行限定

监督学习：

确定实体对之后根据上下文对实体关系预测

轻量级特征——字

中等量级特征——词组

重量级特征——句

Pipeline：

实体识别与关系分类完全分离(串联)

CR-CNN(卷积神经网络)

词向量和位置向量作为输入

F1=84.1

Att-CNN

调整权重

应用注意力机制，针对不同关系优化

F1=88.0

Att-BLSTM

输入层->embedding层->LSTM层->注意力层->输出层

Joint Model：

实体识别与关系分类的过程共同优化(并联)，实现全局的最优化，但是参数空间会变大

LSTM-RNNs

Bi-LSTM->Bi-TreeLSTM(依存关系->依存树)->PHYS

半监督学习：

存在语义漂移

远程监督：

从知识库中抽取存在的关系的实体对->从非结构化的文本中抽取含有实体对的句子作为训练样例

PCNNs

piecewise max-pooling：实体分为几段做maxpooling，刻画更精准

多实例学习：找到处理句中实体同时出现且句型相似的句子做句子级别的Attention

Bootstrapping

可以去学模板

给定种子集合->发现Pattern->利用冗余性进行频率统计->归纳Pattern->将抽取出的Pattern去文档集中匹配->根据Pattern抽取出信的文档如种子库、迭代直到收敛为止

3、事件抽取：

多元关系抽取

事件描述->事件触发->事件元素->元素角色

事件嵌套：

事件会发展，有跟踪后续

通过更大事件集合嵌套小事件

pipeline

事件识别Trigger Classifier->元素抽取Argument Classifier->属性分类Role Classifier->可报告性判别Reportable-Event Classifier

性能会衰减

Joint Inference

构建n个模型，集成学习

max(f1+f2+...+fn)

避免性能衰减

Joint Modeling

多任务学习，共享底层特征

避免性能衰减

动态多池化层

扩充语料：

FrameNet/从网络获取事件信息(多源整合获得完整信息)

二、面向结构化数据的知识抽取

关系数据库——shema+mapping——>KG

W3C标准Mapping languages：R2RML

工具：D2R/Virtuoso

直接映射direct mapping

关联类别->每一行形成三元组->外键对应

没办法灵活定制

R2RML

OnTop

三、面向半结构化数据的知识抽取

有一定结构且相对好抽取

百科类知识抽取：

DBpedia

基于Wikimedia抽取

Generic Infobox Extraction(同义属性不做映射)/Mapping-based Infobox Extraction(二次处理，属性对齐)

Web网页数据抽取：包装器生成

手工方法：

XPath表达式(XML路径语言)/CSS选择器表达式

手工方法/包装器归纳/自动抽取->生成包装器->输入网页->输出需要的信息

包装器归纳:网页输入->网页清洗->网页标注->Wrapper Space生成->Wrapper评估->输出包装器

包装器评估:准确率/召回率

自动抽取:

包装器训练/包装器应用

页面比较后替换->形成包装器

RoadRunner

Web tables

表格实体消歧:位于相同行/列的字符可能相关,可以去做联合的消歧

在线知识抽取:

Category(人工观察分类)->命名规则方法->主语融合(同名不同实体/同实体不同名)->谓词融合->宾语融合(单值属性/多值属性)->对infobox补全

Tai_Park

发布了66 篇原创文章 · 获赞 28 · 访问量 1万+

私信关注

3 知识抽取与挖掘(上)

猜你喜欢