机器学习项目(二) 人工智能辅助信息抽取(十)

预训练模型

1.图像领域预训练模型

ImageNet

2009年由李飞飞团队邓家等人提出,并迅速发展成为CV领域最知名的比赛ILSVRC,从2010年举办第一届,到2017年李飞飞宣布最后一届,前后总共举办8年,这八年间先后在这个比赛中涌现了一大批推动AI领域尤其是CV领域发展的算法和模型

ILSVRC

2012年Hinton团队提出了AlexNet,超过当时第二名效果41%,一下子引爆了AI领域,因此2012年也被成为"深度学习元年"

图像中的预训练

模型的较低层学习到的主要是物体的边缘,往高层后逐步就变成了成型的物体了。一般来说,物体的边缘和纹路都是一些比较通用的视觉特征,因此将这一部分对应的模型参数用来初始化task-specific模型中的参数,意味着模型就不要再从头开始学习这些特征,从而大大提升了训练的效率和性能。

预训练在图像的应用

1.训练数据少,不足以训练复杂网络
2.加快训练速度
3.参数初始化,找到好的初始点,有利于优化

2.NLP领域预训练模型

类似于图像领域中的ImageNet上预训练的各种模型,来做一个NLP中预训练好的Encoder模块,拿来直接利用。需要思考如何设计一些更通用的可以迁移利用的东西。
在这里插入图片描述

固定词向量的缺陷
1.一词多义,上下文相关
2.未登录词处理,新词发现

ELMO

根据当前上下文对Word Embedding 动态调整
1.双向双层RNN预训练
2.语言模型作为训练任务

ELMO使用

1.收集语料,预训练模型
2.在线特征抽取
# 插图

3层词向量
1.char CNN的输出(中文为词向量)
2.第一层双向LSTM
3.第二层双向LSTM
通过softmax学习权重参数,对上述3层向量进行加权

ELMO总结

解决了一词多义,不足:
1.LSTM特征提取能力弱;
2.2-stacked biLSTM+Residual结构,高维语义提取能力一般

GPT

1.单项语言模型
2.使用Transformer做特征提取
在这里插入图片描述

GPT使用

1.海量数据预训练语言模型
2.Fine-tuning到下游任务
在这里插入图片描述

GPT总结

使用Transformer的encoder部分做特征提取,在海量数据上训练语言模型,表征能力足够强大。使迁移学习应用在NLP任务中。
不足:单向语言模型,任务定义简单,特征不够丰富,单向结构限制了应用的范围。

BERT

1.双向语言模型
2.使用Transformer做特征提取
在这里插入图片描述
BERT如何构造双向语言模型
在这里插入图片描述

BERT输入

单词Embedding
位置Embedding
句子Embedding
在这里插入图片描述

BERT使用

句子对分类
单句子分类
阅读理解
序列标注
在这里插入图片描述

BERT总结

BERT近年来NLP进展的集大成者
1.transformer做特征提取:双向,增加模型深度,从低维到高维的语义特征
2.双向语言模型:Masked-LM借鉴CBOW
3.Next Sentence Prediction:Skip-gram,句子级别的语义特征
4.充分利用大量无监督数据,构造多任务:将语言学、知识引入,学习到丰富的特征
5.通用的输入层和输出层:学习到的表征可在多个任务中进行快速迁移
6.代码、模型全部开源

发布了110 篇原创文章 · 获赞 3 · 访问量 4065

猜你喜欢

转载自blog.csdn.net/qq_33357094/article/details/105298195
今日推荐