带你熟悉NLP预训练模型：BERT - 代码天地

带你熟悉NLP预训练模型：BERT

移动开发 2024-01-22 17:34:11 阅读次数: 0

本文分享自华为云社区《【昇思技术公开课笔记-大模型】Bert理论知识》，作者： JeffDing。

NLP中的预训练模型

语言模型演变经历的几个阶段

word2vec/Glove将离散的文本数据转换为固定长度的静态词向量，后根据下游任务训练不同的语言模型
ELMo预训练模型将文本数据结合上下文信息，转换为动态词向量，后根据下游任务训练不同的语言模型
BERT同样将文本数据转换为动态词向量，能够更好地捕捉句子级别的信息与语境信息，后续只需对BERT参数进行微调，仅重新训练最后的输出层即可适配下游任务
GPT等预训练语言模型主要用于文本生成类任务，需要通过prompt方法来应用于下游任务，指导模型生成特定的输出。

BERT模型本质上是结合了ELMo模型与GPT模型的优势。

相比于ELMo，BERT仅需改动最后的输出层，而非模型架构，便可以在下游任务中达到很好的效果；
相比于GPT，BERT在处理词元表示时考虑到了双向上下文的信息；

Bert介绍

2018年Google发布了BERT（来自Transformer的双向自编码器）预训练模型，旨在通过联合左侧和右侧的上下文，从未标记文本中预训练出一个深度双向表示模型。因此，BERT可以通过增加一个额外的输出层来进行微调，就可以达到为广泛的任务创建State-of-the-arts 模型的效果，比如QA、语言推理任务。

当时将预训练模应用于下游任务的策略通常有两种：基于特征的（feature-based）和基于微调（fine-tuning）；前者比如ELMo，后者比如OpenAI GPT;

这两种策略在预训练期间具有相同的目标函数，在预训练期间，它们使用单向语言模型来学习一般的语言表示。但当前对预训练方法的限制（尤其是对基于微调的方法）是标准语言模型是单向(unidirectional）的，所以限制了在预训练阶段可选的模型结构体系。

比如GPT是从左到右的，每个token只能关注到前一个token的self-attention layers。这种局限对于句子级任务(sentence-level tasks)来说还不是很打紧，但是对于token-level tasks（比如QA）就很致命，所以结合两个方向的上下文信息至关重要。

Bert Input

第一步：Tokenization，输入的句子经过分词后，首尾添加[CLS]与[SEP]特殊字符，后转换为数字id

第二步：Embedding，输入到BERT模型的信息由三部分内容组成：

表示内容的token ids

表示位置的position ids

用于区分不同句子的token type ids

将三种信息分别输入Embedding层

如果出现输入是句子对的情况呢？

BERT Architecture

BERT由Encoder Layer堆叠而成，Encoder Layer的组成与Transformer的Encoder Layer一致：

自注意力层 + 前馈神经网络，中间通过residual connection和LayerNorm连接

BERT（Bidirectional Encoder Representation from Transformers）是由Transformer的Encoder层堆叠而成，BERT的模型大小有如下两种：

BERT BASE：与Transformer参数量齐平，用于比较模型效果（110M parameters）

BERT LARGE：在BERT BASE基础上扩大参数量，达到了当时各任务最好的结果（340M parameters）

BERT Output

BERT会针对每一个位置输出大小为hidden size的向量，在下游任务中，会根据任务内容的不同，选取不同的向量放入输出层

pooler output

例如，在诈骗邮件分类任务中，我们会将表示句子级别信息的[CLS] token所对应的向量，经过Bert Pooler放入classfier中，得到对spam/not spam分类的预测。

我们一般称[CLS]经过线性层+激活函数tanh的输出为pooler output，用于句子级别的分类/回归任务

sequence output

例如，在词性标注任务（POS Tagging）中，我们需要获得每一个token所对应的类别，因此需要将[CLS]和[SEP]中有实际意义的token输出，分别输入对应的classifier中。

我们一般称BERT输出的每个位置对应的vector为sequence output

BERT的不同下游任务

BERT预训练

BERT预训练任务有两种：Masked Language Modelling（MLM）和 Next Sentence Prediction （NSP）。

MLM：随机遮盖输入句子中的一些词语，并预测被遮盖的词语是什么（完形填空）

NSP：预测两个句子是不是上下文的关系

Masked Language Model（MLM）

Masked Language Modelling（MLM）捕捉词语级别的信息

在输入中随机遮盖15%的token（即将token替换为[MASK]）

将[MASK]位置对应的BERT输出放入输出层中，预测被遮盖的token

在将[MASK]位置所对应的BERT输出放入输出层后，本质上是在进行一个多分类任务

为了使得预训练任务和推理任务尽可能接近，BERT在随机遮盖的15%的tokens中又进行了进一步的处理：

80%的概率替换为[MASK]

10%的概率替换为文本中的随机词

10%的概率不进行替换，保持原有的词元

Next Sentence Prediction（NSP）

Next Sentence Prediction (NSP) 捕捉句子级别信息，简单来说是一个针对句子对的分类问题，判断一组句子中，句子B是否为句子A的下一句（IsNext or NotNext）

Bert微调

在下游任务中，我们使用少量的标注数据（labelled data）对预训练Transformer编码器的所有参数进行微调，额外的输出层将从头开始训练。

点击关注，第一时间了解华为云新鲜技术~

{{o.name}}

{{m.name}}

猜你喜欢

转载自my.oschina.net/u/4526289/blog/10920708

带你熟悉NLP预训练模型：BERT

NLP预训练模型的发展：从Word embedding到BERT（二）

NLP预训练模型的发展：从Word embedding到BERT（一）

完胜 BERT，谷歌最佳 NLP 预训练模型开源

NLP预训练模型2 -- BERT详解和源码分析

BERT(NAACL 2019)-NLP预训练大模型论文解读

【NLP】1、BERT | 双向 transformer 预训练语言模型

bert 预训练模型路径

NLP预训练模型6 -- 模型轻量化（ALBERT、Q8BERT、DistillBERT、TinyBERT等）

【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解

谷歌官宣：全面超越人类的最强NLP预训练模型BERT开源了！

NLP预训练模型综述：从word2vec, ELMo到BERT

从BERT、XLNet到MPNet，细看NLP预训练模型发展变迁史

【视频】超越BERT的最强中文NLP预训练模型艾尼ERNIE官方揭秘

NLP文本分类pytorch框架-支持Bert等预训练语言模型

NLP预训练语言模型

笔记nlp预训练模型

nlp 预训练模型总结

微调预训练的 NLP 模型

老卫带你学---keras下载预训练模型

BERT 预训练模型及文本分类

预训练语言模型 | (3) Bert

BERT与其他预训练模型

pytorch的bert预训练模型下载

BERT 模型预训练流程简单认识

Bert模型预训练和微调

预训练语言模型（GPT，BERT）

基于Pytorch+Bert的预训练模型

【深度学习】预训练语言模型-BERT

BERT预训练模型系列总结

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)