从bert到XLnet

1、ELmo与双向lstm

2、bert 模型的特点

3、permutation 与XLnet模型介绍

unsupervised learning

1、easily get lots of unlabeled data;2、labeling 

non-contexuailized techniques    eg.skipgram cbow glove

contexualized techniques   eg.elmo bert xlnet

Denoising auto encoder  去噪自动编码器,深度学习模型——学出图片或数据更有效的表示,

DAE在训练中加入噪声,提高模型健壮性

2、auto_regressive vs auto_encoding

自回归:elmo,product role  优点:保持一致性,考虑词的依赖关系;缺点:单向的,不同同时考虑双边 

自动编码: bert , mask一些单词,基本独立假设  bert存在的问题:independent assumption 优点:考虑了双向的关系;缺点:非独立假设;2、train和 test 之间存在的不一致性;

3、permutation language model 排列语言模型

基于elmo考虑双向问题进行改造。answer:consider all possibel factorization

随机采样一定序列,attention mask,把词的顺序混排进模型(类似于数据增强,不改造模型,从数据输入上改造);

二、已知向量的信息,知道向量的位置,结合两个信息   

VAE详细解读:variable autoencoder

推荐课程:NLP高阶免费课程NLP与知识图谱高阶免费课程

NLP优质博客:http://jalammar.github.io

猜你喜欢

转载自www.cnblogs.com/Christbao/p/12347501.html