NLP领域中两种语言模型AR(AutoRegressive Language Modeling)和AE(AutoEncoding Language Modeling)

NLP领域中的语言模型大体可以分为两类:

AR:Autoregressive Language Modeling (自回归语言模型)

        定义:依据前 t - 1 个(或后 t - 1 个)tokens来预测当前时刻 t 的token,代表作有 ELMO, GPT。以GPT举例,GPT使用的是标准的语言模型,是一种前向未来预测模型,公式表示为

p\left ( x \right )=\prod_{t = 1}^{T}p\left ( x_{t} |x_{<t}\right )

AE:Autoencoding Language Modeling(自编码语言模型)

        定义:通过上下文信息来预测被 mask(或中心词) 的 token,通俗地被称为“完形填空”,代表有 BERT , Word2Vec(CBOW)  ,公式一般表示为:

p\left ( x \right )=\prod_{x\epsilon Mask}^{}p\left ( x_{t} |content \right )

优缺点比较:

AR :

  • 缺点: 

    • 只能利用单向语义信息,而不能结合上下文信息进行预测。虽然ELMO通过前后双向分别构建AR模型,然后融合,但从结果来看,效果并不是太好;

    • 需要大量样本和调优,未来推演or预测的方式使得模型训练困难。

  • 优点: 适合构建生成模型,符合生成式任务的生成过程。这也是GPT系列能够用于AIGC,问答等领域的主要原因

AE :

  • 缺点: 

    • 预训练数据使用 [MASK] 标记需要预测的 token,但在各类需要微调的任务中 [MASK] ,进而导致两阶段 input 不一致;

    • BERT独立假设问题,没有对被遮掩为 [MASK] 的token之间的关联进行学习;

    • “完形填空”式的训练策略,不适用于生成式问题。

  • 优点: 能够很好的编码、利用、融合上下文语义信息,类似于BERT中的双向transfomer encoder, 在自然语言理解相关的下游任务上表现突出。

猜你喜欢

转载自blog.csdn.net/xiao_ling_yun/article/details/129309633