1、ELmo与双向lstm
2、bert 模型的特点
3、permutation 与XLnet模型介绍
unsupervised learning
1、easily get lots of unlabeled data;2、labeling
non-contexuailized techniques eg.skipgram cbow glove
contexualized techniques eg.elmo bert xlnet
Denoising auto encoder 去噪自动编码器,深度学习模型——学出图片或数据更有效的表示,
DAE在训练中加入噪声,提高模型健壮性
2、auto_regressive vs auto_encoding
自回归:elmo,product role 优点:保持一致性,考虑词的依赖关系;缺点:单向的,不同同时考虑双边
自动编码: bert , mask一些单词,基本独立假设 bert存在的问题:independent assumption 优点:考虑了双向的关系;缺点:非独立假设;2、train和 test 之间存在的不一致性;
3、permutation language model 排列语言模型
基于elmo考虑双向问题进行改造。answer:consider all possibel factorization
随机采样一定序列,attention mask,把词的顺序混排进模型(类似于数据增强,不改造模型,从数据输入上改造);
二、已知向量的信息,知道向量的位置,结合两个信息
VAE详细解读:variable autoencoder
推荐课程:NLP高阶免费课程,NLP与知识图谱高阶免费课程
NLP优质博客:http://jalammar.github.io