目录
1 数据采集原理和技术
- 爬虫原理
- 请求和响应
- 多线程并行爬取
- 反扒机制进队
这些参考一下自己之前学的爬虫知识,详细见Python 这个专栏
2 知识抽取:命名实体识别
一、实体识别基本概念
二、基于规则和词典的方法
三、基于机器学习的方法
四、基于深度学习的方法
五、基于半监督学习的方法
六、基于迁移学习的方法
七、基于预训练的方法
2.1实体识别
实体识别的任务是识别文中的三大类命名实体(实体类、时间类、数字类),具体如下
2.2 基于规则和词典的命名实体识别流程
预处理
➢划分句子
➢分词+词性标注
➢构建词典
识别实体边界
➢初始化边界:词典匹配、拼写规则、特殊字符、特征词和标点符号等
命名实体分类
➢使用分类规则
➢基于词典的分类
词典主要在三个地方使用:
- 在分词时辅助分词
- 实体抽取时根据词典匹配实体
- 基于词典对实体分类
2.3 基于机器学习的方法主要包括:
- 隐马尔科夫模型(Hidden Markov Model, HMM)
- 条件随机场(Conditional Random Fields, CRF)
- 支持向量机(Support Vector Machine, SVM)
- 最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM )
这部分的学习强烈推荐看一下参考文献里的几篇文章
2.4 基于深度学习的实体识别
2.5 基于半监督学习的实体识别
TagLM模型结构
2.6 基于迁移学习的实体识别
机器学习与迁移学习
迁移学习的三种模式:
跨域、跨应用、跨语言
迁移学习的模型表现
2.7 基于预训练的实体识别
BETR模型
BERT模型重新设计了语言模型预训练阶段的目标任务,提出了遮挡语言模型(MaskedLM)和下一个句子预测(NSP)。
Masked LM是在输入的词序列中,随机选15%的词进行[MASK] ,然后在这15%的词中,有80% 的词被真正打.上[MASK]标签,有10%的词被随机替换成任意词汇,10% 的词不做任何处理。模型的任务是去正确预测带有[MASK]标签的
词。相比于传统的语言模型,Masked LM可以从前后两个方向预测这些带有[MASK]标签的词。
NSP实质上是一个二分类任务,以50% 的概率输入一-个句子和下一个句子的拼接,标签属于正例;另外50%的概率输
入一个句子和非下一个随机句子的拼接,对应标签为负例。
BERT模型的表现
参考文献:
- MCMC(二)马尔科夫链:https://www.cnblogs.com/pinard/p/6632399.html
- 马尔科夫维基:https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE
- 隐马尔可夫模型:https://zh.wikipedia.org/wiki/%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B
- 隐马尔科夫模型结合统计学习方法CSDN:https://blog.csdn.net/mingzai624/article/details/52399235