知识图谱入门学习笔记(五)-知识抽取之数据采集&命名实体识别

目录

1 数据采集原理和技术

2 知识抽取:命名实体识别

2.1实体识别

2.2 基于规则和词典的命名实体识别流程

2.3 基于机器学习的方法主要包括:

2.4 基于深度学习的实体识别

2.5 基于半监督学习的实体识别

2.6 基于迁移学习的实体识别

机器学习与迁移学习

2.7 基于预训练的实体识别

参考文献:


1 数据采集原理和技术

  • 爬虫原理
  • 请求和响应
  • 多线程并行爬取
  • 反扒机制进队

这些参考一下自己之前学的爬虫知识,详细见Python 这个专栏

2 知识抽取:命名实体识别

一、实体识别基本概念
二、基于规则和词典的方法
三、基于机器学习的方法
四、基于深度学习的方法
五、基于半监督学习的方法
六、基于迁移学习的方法
七、基于预训练的方法
 

2.1实体识别

实体识别的任务是识别文中的三大类命名实体(实体类、时间类、数字类),具体如下

2.2 基于规则和词典的命名实体识别流程

预处理
➢划分句子
➢分词+词性标注
➢构建词典
识别实体边界
    ➢初始化边界:词典匹配、拼写规则、特殊字符、特征词和标点符号等
命名实体分类
➢使用分类规则
➢基于词典的分类

词典主要在三个地方使用:

  • 在分词时辅助分词
  • 实体抽取时根据词典匹配实体
  • 基于词典对实体分类

2.3 基于机器学习的方法主要包括:

  • 隐马尔科夫模型(Hidden Markov Model, HMM)
  • 条件随机场(Conditional Random Fields, CRF) 
  • 支持向量机(Support Vector Machine, SVM)
  • 最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM )

这部分的学习强烈推荐看一下参考文献里的几篇文章

2.4 基于深度学习的实体识别

2.5 基于半监督学习的实体识别

TagLM模型结构

2.6 基于迁移学习的实体识别

机器学习与迁移学习

迁移学习的三种模式:

跨域、跨应用、跨语言

迁移学习的模型表现

2.7 基于预训练的实体识别

BETR模型

BERT模型重新设计了语言模型预训练阶段的目标任务,提出了遮挡语言模型(MaskedLM)和下一个句子预测(NSP)
Masked LM是在输入的词序列中,随机选15%的词进行[MASK] ,然后在这15%的词中,有80% 的词被真正打.上[M
ASK]标签,有10%的词被随机替换成任意词汇,10% 的词不做任何处理。模型的任务是去正确预测带有[MASK]标签的
词。相比于传统的语言模型,Masked LM可以从前后两个方向预测这些带有[MASK]标签的词。
NSP实质上是一个二分类任务,以50% 的概率输入一-个句子和下一个句子的拼接,标签属于正例;另外50%的概率输
入一个句子和非下一个随机句子的拼接,对应标签为负例。
BERT模型的表现

参考文献:

猜你喜欢

转载自blog.csdn.net/qq_37457202/article/details/108474951
今日推荐