1 数据采集原理和技术

爬虫原理
请求和响应
多线程并行爬取
反扒机制进队

这些参考一下自己之前学的爬虫知识，详细见Python 这个专栏

2 知识抽取：命名实体识别

一、实体识别基本概念
二、基于规则和词典的方法
三、基于机器学习的方法
四、基于深度学习的方法
五、基于半监督学习的方法
六、基于迁移学习的方法
七、基于预训练的方法

2.1实体识别

实体识别的任务是识别文中的三大类命名实体（实体类、时间类、数字类），具体如下

2.2 基于规则和词典的命名实体识别流程

预处理
➢划分句子
➢分词+词性标注
➢构建词典
识别实体边界
➢初始化边界:词典匹配、拼写规则、特殊字符、特征词和标点符号等
命名实体分类
➢使用分类规则
➢基于词典的分类

词典主要在三个地方使用：

在分词时辅助分词
实体抽取时根据词典匹配实体
基于词典对实体分类

2.3 基于机器学习的方法主要包括：

隐马尔科夫模型(Hidden Markov Model, HMM)
条件随机场(Conditional Random Fields, CRF)
支持向量机(Support Vector Machine, SVM)
最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM )

这部分的学习强烈推荐看一下参考文献里的几篇文章

2.4 基于深度学习的实体识别

2.5 基于半监督学习的实体识别

TagLM模型结构

2.6 基于迁移学习的实体识别

机器学习与迁移学习

迁移学习的三种模式：

跨域、跨应用、跨语言

迁移学习的模型表现

2.7 基于预训练的实体识别

BETR模型

BERT模型重新设计了语言模型预训练阶段的目标任务，提出了遮挡语言模型(MaskedLM)和下一个句子预测(NSP)。
Masked LM是在输入的词序列中，随机选15%的词进行[MASK] ,然后在这15%的词中，有80% 的词被真正打.上[MASK]标签，有10%的词被随机替换成任意词汇，10% 的词不做任何处理。模型的任务是去正确预测带有[MASK]标签的
词。相比于传统的语言模型，Masked LM可以从前后两个方向预测这些带有[MASK]标签的词。
NSP实质上是一个二分类任务，以50% 的概率输入一-个句子和下一个句子的拼接，标签属于正例;另外50%的概率输
入一个句子和非下一个随机句子的拼接，对应标签为负例。
BERT模型的表现

参考文献：

MCMC(二)马尔科夫链：https://www.cnblogs.com/pinard/p/6632399.html
马尔科夫维基：https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE
隐马尔可夫模型：https://zh.wikipedia.org/wiki/%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B
隐马尔科夫模型结合统计学习方法CSDN:https://blog.csdn.net/mingzai624/article/details/52399235

知识图谱入门学习笔记（五）-知识抽取之数据采集&命名实体识别