NLP常用Backbone模型小抄(1)

前言

自17年Transformer出现以来,NLP各大工作都出现它的身影。最近,斯坦福还专门为transformer开了一门课程CS25: 【Stanford】CS25 Transformers United | Fall 2021

刚入门NLP的人可以看看我之前写的一篇文章 研0_NLPer启程

对于对应的模型,可以去hugginface的transfomers库看看 transformers/models (github), 可以找到对应模型看看它的源码实现。

现在主要是结合上下文的动态词向量编码技术,很少使用word2vec, glove词表进行静态词向量映射了。

b站一个视频 吹爆!计算机博士【NLP自然语言处理】不愧是清华教授!5小时让我搞定了NLP自然语言处理! (虽然标题有些emm…但是看了一下目录啥的好像还行…

prompt出现之前,adapter技术也挺火,详见一篇博文 一文读懂!NLP中的Adapter技术

几种常见的初始化方法: 深度学习几种常用的权重初始化方法

数据增强方法: 一文了解NLP和CV领域的数据增强


论文

CPT


论文: CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
代码: https://github.com/fastnlp/CPT, 我之前看了一下源码,发现编码器使用bert

一个编码器, 两个解码器的神奇架构,支持中文。



Bart

BART: Denoising Sequence-to-Sequence Pre-training for Natural
Language Generation, Translation, and Comprehension



T5

67页的arxiv版本论文确实好长…
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer



Mass

MASS: Masked Sequence to Sequence Pre-training for Language Generation



GPT

decoder架构
GPT系列沐神之前有讲过。GPT,GPT-2,GPT-3 论文精读【论文精读】_跟李沐学AI_bilibili

GPT-1

传说Bert就是受GPT-1启发有个小哥两个月内搞出来的。
Improving Language Understanding by Generative Pre-Training

GPT-2

GPT-2效果没有Bert好,但是适合做生成式任务。GPT-3有比较大(如果实验室没设备的话),所以还是有人用GPT-2做一些demo的例子的。
Language Models are Unsupervised Multitask Learners


GPT-3

还被用作生成代码啥的。
论文: Language Models are Few-Shot Learners



Bert

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

encoder结构。bert家族很多,如蒸馏版本distilBert, 变体Roberta等。

词向量输入构成:



transformer

著名的self-attention就出自这篇文章.
Attention Is All You Need

之前复现过这个模型: transformer结构复现__attention is all you need (pytorch)

encoder-decoder结构:

Attention模块:



猜你喜欢

转载自blog.csdn.net/weixin_43850253/article/details/126070768