NLP预训练模型学习总结

Ⅰ 综述

以邱锡鹏老师的文章为范本来分析为什么使用预训练模型以及预训练模型如何分类。

一、为什么需要预训练模型

Pre-trained Models缩写为PTMs。复旦大学邱锡鹏教授发表的NLP预训练模型综述“Pre-trained Models for Natural Language Processing: A Survey”,于2021年6月23日出版。这篇文章从多个角度分析了当前预训练语言模型,认为预训练模型有三大优势:

  • 预训练模型从大规模语料中学习知识,对下游任务帮助很大。
  • 预训练提供了一种更好的参数初始化方式,使得在目标任务上泛化能力更好,收敛速度更快。
  • 预训练可以认为是一种正则化手段,可以防止模型在小数据集上过拟合。

二、无监督预训练模型分类

预训练语言模型到目前分为两个阶段:

  1. 预训练word embeddings。这个阶段只训练词向量,而且是静态的,是一种feature-base方式。典型例子为word2vec, glove。利用词向量进行token embedding,然后送入模型中。模型设计百花齐放,但主要以LSTM为主。
  2. 预训练上下文编码器。这个阶段基于上下文动态学习embedding和encoding。典型例子为ELMO、GPT、BERT。

预训练语言模型大部分都是基于自监督学习来构建的,分为基于上下文学习和对比学习两类。

(一)语言模型Language Model(LM)

语言模型一般指的是自回归语言模型,由上文利用最大似然估计,来预测下文。典型代表就是GP

おすすめ

転載: blog.csdn.net/dragon_T1985/article/details/119666717
おすすめ