BERT（三）——BERT 改进 - 代码天地

BERT（三）——BERT 改进

其他 2021-01-28 09:44:29 阅读次数: 0

先都列出来，有时间再详细整理

BERT-Base

BERT-Large

BERT-wwm

SpanBert

SpanBert：对 Bert 预训练的一次深度探索

DistillBERT

XLNET

飞跃芝麻街：XLNet 详解

最通俗易懂的XLNET详解

①AR AE方式结合，通过随机取一句话排列的一种，然后将末尾一定量的词给“遮掩”（和 BERT 里的直接替换 “[MASK]” 有些不同）掉，最后用 AR 的方式来按照这种排列方式依此预测被“遮掩”掉的词。

②在 BERT 这样的位置信息+内容信息输入 Self-Attention (自注意力) 的流（Stream）之外，作者们还增加了另一个只有位置信息作为 Self-Attention 中 query 输入的流

③ 部分预测

④ 段循环机制：前一段计算完后，将它计算出的隐状态（hidden states）都保存下来，放入一个 Memory 中去，之后在当前分段计算时，将之前存下来的隐状态和当前段的隐状态拼起来作为 Attention 机制的 K 和 V，从而获得更长的上下文信息。

⑤相对位置编码

扫描二维码关注公众号，回复： 12364334 查看本文章

⑥ 更多数据

RoBERTa

RoBERTa：高级丹药炼制记录

改进：更大量数据，更多step，更大Batch，动态掩码，Byte Pair Encoding (BPE) 词典更大，去掉了句子预测

ALBERT

ELECTRA

ERNIE

ERNIE 2.0：芝麻街 2.0？

ZEN

T5

Transfer Text-to-Text Transformer

T5 模型：NLP Text-to-Text 预训练模型超大规模探索

给整个 NLP 预训练模型领域提供了一个通用框架，把所有任务都转化成一种形式。

将所有 NLP 任务都转化成 Text-to-Text （文本到文本）任务。

中文预训练模型

参考链接：

https://blog.csdn.net/triplemeng/article/details/104047803

https://www.zhihu.com/people/andy_yangz/posts

猜你喜欢

转载自blog.csdn.net/katrina1rani/article/details/111709367

BERT（三）——BERT 改进

Transformer模型的改进-BERT

Bert改进模型汇总（1）

Bert改进模型汇总（3）

Bert改进模型汇总（2）

Bert 改进：如何融入知识

BERT模型的优化改进方法！

BERT

基于的BERT的一些改进模型及思路

BERT源码分析（三）---微调

BERT（二）——BERT 缺陷

针对Bert的改进，主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。

Pytorch之Bert文本分类(三)

Bert Pytorch 源码分析：三、Transformer块

BERT的理解

bert模型

Bert（一）

Bert详解

什么是BERT？

Google BERT

BERT介绍

bert 与 ALbert

BERT面试

BERT笔记

（五）Bert

浅谈Bert

bert 简介

BERT简介

【技术分享】BERT系列（三）-- BERT在阅读理解与问答上应用

改进

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)