NLP领域中两种语言模型AR(AutoRegressive Language Modeling)和AE(AutoEncoding Language Modeling)

NLP领域中的语言模型大体可以分为两类：

AR：Autoregressive Language Modeling （自回归语言模型）

定义：依据前 t - 1 个（或后 t - 1 个）tokens来预测当前时刻 t 的token，代表作有 ELMO， GPT。以GPT举例，GPT使用的是标准的语言模型，是一种前向未来预测模型，公式表示为

$p\left ( x \right )=\prod_{t = 1}^{T}p\left ( x_{t} |x_{<t}\right )$

AE：Autoencoding Language Modeling（自编码语言模型）

定义：通过上下文信息来预测被 mask（或中心词）的 token，通俗地被称为“完形填空”，代表有 BERT , Word2Vec(CBOW) ，公式一般表示为：

$p\left ( x \right )=\prod_{x\epsilon Mask}^{}p\left ( x_{t} |content \right )$

优缺点比较：

AR ：

缺点：
- 只能利用单向语义信息，而不能结合上下文信息进行预测。虽然ELMO通过前后双向分别构建AR模型，然后融合，但从结果来看，效果并不是太好；
- 需要大量样本和调优，未来推演or预测的方式使得模型训练困难。
优点： 适合构建生成模型，符合生成式任务的生成过程。这也是GPT系列能够用于AIGC，问答等领域的主要原因

AE ：

缺点：
- 预训练数据使用 [MASK] 标记需要预测的 token，但在各类需要微调的任务中 [MASK] ,进而导致两阶段 input 不一致；
- BERT独立假设问题，没有对被遮掩为 [MASK] 的token之间的关联进行学习；
- “完形填空”式的训练策略，不适用于生成式问题。
优点： 能够很好的编码、利用、融合上下文语义信息，类似于BERT中的双向transfomer encoder，在自然语言理解相关的下游任务上表现突出。