ELMO，BERT和GPT简介

其他 2019-10-01 20:11:16 阅读次数: 0

1.Contextualized Word Embedding

同样的单词有不同的意思，比如下面的几个句子，同样有 “bank” ，却有着不同的意思。但是用训练出来的 Word2Vec 得到 “bank” 的向量会是一样的。向量一样说明 “word” 的意思是一样的，事实上并不是如此。这是 Word2Vec 的缺陷。

下面的句子中，同样是“bank”，确是不同的 token，只是有同样的 type

我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized Word Embedding。

2.EMLO

EMLO 是 Embeddings from Language Model 的缩写，它是一个 RNN-based 的模型，只需要有大量句子就可以训练。

我们可以把训练的 RNN 隐藏层的权重拿出来，把词汇经过隐藏层后输出的向量当做这个单词的 embedding，因为 RNN 是考虑上下文的，所以同一个单词在不同的上下文中它会得到不同的向量。上面是一个正向里的 RNN，如果觉得考虑到的信息不够，可以训练双向 RNN ，同样将隐藏层的输出作为 embedding。

如果我们的 RNN 有很多层，我们要拿那一隐藏层的输出作为 embedding？

在 ELMO 中，它取出每一层得到的向量，经过运算得到我们每一个单词的 embedding

比如上图，假设我们有2层，所以每个单词都会得到 2 个向量，最简单的方法就是把两个向量加起来作为这个单词的embedding。

EMLO中会把两个向量取出来，然后乘以不同的权重 $\alpha $，再将得到的我们得到的 embedding 做下游任务。

$\alpha $ 也是模型学习得到的，它会根据我们的下游任务一起训练得到，所以不同的任务用到的 $\alpha $ 是不一样的

比如我们的 embedding 可以有3个来源，如上图所示。分别是

原来没有经过 contextualized 的 embedding，就是上面的 Token
Token 经过第一层抽出第一个 embedding
Token 经过第二层抽出第二个 embedding

颜色的深浅代表了权重的大小，可以看到不同的任务（SRL、Coref 等）有着不同的权重。

3.BERT

BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，BERT 是 Transformer 中的 Encoder。它由许多个 Encoder 堆叠而成

在 BERT 里面，我们的文本是不需要标签的，只有收集到一堆句子就可以训练了。

BERT 是 Encoder，所以可以看成输入一个句子，输出 embedding，每个 embedding 对应一个 word

上图的例子我们是以 “词” 为单位，有时候我们以 “字” 为单位会更好。比如中文的 “词” 是很多的，但是常用的 “字” 是有限的。

在 BERT 中，有两种训练方法，一种是 Masked LM。另一种是 Next Sentence Prediction。但一般同时使用，会取得更好的效果。

3.1Masked LM

在 Masked LM 中，我们会把输入的句子中随机将15%的词汇置换为一个特殊的 token ，叫做 [MASK]

BERT 的任务就是猜出这些被置换掉的词汇的什么。

就像是一个填词游戏，挖去一句话中的某个单词，让你自己填上合适的单词

经过 BERT 后我们得到一个 embedding，再把置换为 [MASK] 的那个位置输出的 embedding 通过一个线性分类器，预测这个单词是什么

因为这个分类器是 Linear 的，所以它的能力非常非常弱，所以 BERT 要输出一个非常好的 embedding，才能预测出被置换掉的单词是什么

如果两个不同的词可以填在同一个句子，他们会有相似的embedding，因为他们语义相近

3.2Next Sentence Prediction

在 Next Sentence Prediction 中，我们给 BERT 两个句子，让 BERT 预测这两个句子是不是接在一起的

[SEP]：特殊的toekn，代表两个句子的交界处

[CLS]：特殊的token，代表要做分类

我们再把 [CLS] 输出的向量通过一个线性分类器，让分类器判断这两个句子应不应该接在一起。

BERT 是 Transformer 的 Encoder，它用到了 self-attention 机制，可以读到句子的全部信息，所以 [CLS] 可以放在开头

我们也可以直接把这个向量输入一个分类器中，判断文本的类别，比如下面判断垃圾邮件的实例

3.3ERNIE

ERNIE 是 Enhance Representation through Knowledge Integration 的缩写

ERNIE是专门为中文准备的，BERT的输入以中文的字为单位，随机盖掉一些字后其实是很容易被猜出来的，如上图所示。所以盖掉一个词汇比较合适。

4.GPT

GPT 是 Generative Pre-Training 的缩写，它的参数量特别大，如下图所示，它的参数量是 BERT 的4.5倍左右

BERT 是 Transformer 的 Encoder，GPT则是 Transformer 的 Decoder。GPT 输入一些词汇，预测接下来的词汇。其计算过程如下图所示。

我们输入单词 “潮水”，经过许多层的 self-attention 后得到输出 “退了”。再把 “退了” 作为输入，预测下一个输出。

GPT可以做阅读理解、句子或段落生成和翻译等NLP任务

参考资料：

http://jalammar.github.io/illustrated-bert/

李宏毅深度学习

猜你喜欢

转载自www.cnblogs.com/dogecheng/p/11615750.html

ELMO，BERT和GPT简介

浅谈ELMO、GPT和BERT模型

ELMO,BERT,GPT的原理和用法

ELMO、GPT、Transformer、bert

李宏毅-ELMO, BERT, GPT

【笔记】李宏毅 -- ELMO、BERT、GPT

Bert详解(1)---从WE、ELMO、GPT到BERT

自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）

Glove、Word2vec、ELMO、OpenAI GPT、BERT总结

ELMo/GPT/Bert/Attention/Transformer/Self-Attention总结

NLP词向量模型总结：从Elmo到GPT,再到Bert

李宏毅学习笔记14.ELMO、BERT、GPT

【NLP】李宏毅老师ELMO, BERT, GPT讲解【笔记】

NLP：Transformer在NLP自然语言领域的简介(预训练技术)、NLP模型发展(ELmo/GPT/BERT/MT-DNN/XLNet/RoBERTa/ALBERT)、经典案例之详细攻略

NLP：自然语言领域NLP模型发展(ELmo→GPT/BERT→MT-DNN→XLNet→RoBERTa→ALBERT)l历程简介、重要算法介绍之详细攻略

图解BERT及ELMo

How Contextual are Contextualized Word Representations in BERT、ELMO and GPT-2 Embeddings

预训练模型小结：XLNet\Transformer-xl\Bert\GPT\ELMo

NLP课程：Encoder-Decoder框架、Attention、Transformer、ELMO、GPT、Bert学习总结

NLP：自然语言领域NLP模型发展(ELmo→GPT/BERT→MT-DNN→XLNet→RoBERTa→ALBERT)l历程简介、重要算法介绍之详细攻略daiding—已全部迁移新书中

ELMo、GPT详解

ELMO/BERT/Transformer笔记 (备用)

BERT, ELMo, & GPT-2: 这些上下文相关的表示到底有多上下文化？

Transformer、Bert、Gpt对比系列，超详细介绍transformer的原理，bert和gpt的区别

深度学习：Transformer模型进阶-GPT模型和Bert模型

MASS: 一统GPT和BERT的Seq to Seq框架

自学大语言模型之Bert和GPT的区别

【变形金刚02】注意机制以及BERT 和 GPT

bert 简介

BERT简介

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)