【自然语言处理 | Language Models】Language Models 常见算法介绍合集（七）

文章目录

一、DeeBERT

DeeBERT 是一种加速 BERT 推理的方法。它在 BERT 的每个转换器层之间插入额外的分类层（称为出口）。所有变压器层和出口匝道都在给定的下游数据集上联合微调。在推理时，样本经过变压器层后，会被传递到下一个出口。如果出口匝道对预测有信心，则返回结果；否则，样本将被发送到下一个变压器层。

在这里插入图片描述

二、Probabilistically Masked Language Model

概率屏蔽语言模型（PMLM）是一种利用概率屏蔽方案的语言模型，旨在弥合屏蔽语言模型和自回归语言模型之间的差距。连接两类模型背后的基本思想类似于 Germain 等人 (2015) 的 MADE。 PMLM 是一种具有概率屏蔽方案的屏蔽语言模型，它定义了通过遵循概率分布来屏蔽序列的方式。作者采用了掩蔽比的简单均匀分布，并将该模型命名为 u-PMLM。

在这里插入图片描述

三、Table Pre-training via Execution

TAPEX 是一种概念上简单、经验上强大的预训练方法，可以为现有模型提供表格推理技能。 TAPEX 通过在合成语料库上学习神经 SQL 执行器来实现表预训练，合成语料库是通过自动合成可执行 SQL 查询而获得的。

四、Fastformer

Fastformer 是 Transformer 的一种，它使用附加注意力作为构建块。不是对令牌之间的成对交互进行建模，而是使用附加注意力来对全局上下文进行建模，然后每个令牌表示根据其与全局上下文表示的交互进行进一步转换。

在这里插入图片描述

五、Parallel Layers

并行层 - 我们在每个 Transformer 块中使用“并行”公式（Wang 和 Komatsuzaki，2021），而不是标准的“串行”公式。具体来说，标准公式可以写为：
y = x + MLP(LayerNorm(x + Attention(LayerNorm(x)))

而并行公式可以写为：
y = x + MLP(LayerNorm(x)) + Attention(LayerNorm(x))

由于 MLP 和 Attention 输入矩阵乘法可以融合，因此并行公式可将大规模训练速度提高大约 15%。烧蚀实验显示，在 8B 尺度下质量略有下降，但在 62B 尺度下没有质量下降，因此我们推断并行层的效果在 540B 尺度上应该是质量中性的。

六、Single Headed Attention RNN（SHA-RNN）

SHA-RNN（即单头注意力 RNN）是一种循环神经网络和语言模型，与嵌入输入和 softmax 分类器相结合，基于核心 LSTM 组件和单头注意力模块。其他设计选择包括 Boom 前馈层和层标准化的使用。作者的指导原则是确保架构的简单性并限制计算成本（该模型最初是使用单个 GPU 进行训练的）。

在这里插入图片描述

七、Nyströmformer

Nyströmformer 使用提出的 Nyström 近似替换了 BERT-small 和 BERT-base 中的自注意力。这将自注意力复杂度降低到O(n)并允许 Transformer 支持更长的序列。

在这里插入图片描述

八、Gated Convolution Network

门控卷积网络是一种将卷积网络与门控机制相结合的语言模型。使用零填充来确保看不到未来的上下文。门控卷积层可以分层堆叠在其他层之上。然后通过自适应 softmax 层获得模型预测。

在这里插入图片描述

九、AutoTinyBERT

AutoTinyBERT 是通过神经架构搜索发现的高效 BERT 变体。具体来说，一次性学习用于获得大型超级预训练语言模型（SuperPLM），其中使用预训练或任务无关的 BERT 蒸馏的目标。然后，在给定特定延迟约束的情况下，在 SuperPLM 上运行进化算法来搜索最佳架构。最后，我们根据最优架构提取相应的子模型并进一步训练这些模型。

在这里插入图片描述

十、PermuteFormer

PermuteFormer 是一种基于 Performer 的模型，具有相对位置编码，可在长序列上线性缩放。 PermuteFormer 对查询和键应用位置相关的变换，将位置信息编码到注意模块中。这种转换是经过精心设计的，以便自注意力的最终输出不受令牌绝对位置的影响。

每个token的查询/关键特征在图中被表示为一行块，并且其元素用不同的颜色标记。位置感知排列沿着每个注意力头中的头大小维度排列每个标记的查询/关键特征的元素。根据令牌的位置，应用于查询/关键特征的排列是不同的。

在这里插入图片描述

十一、NormFormer

NormFormer 是一种 Pre-LN 转换器，它为每一层添加了三个归一化操作：自注意力之后的层范数、自注意力输出的头向缩放以及第一个全连接层之后的层范数。这些修改引入了少量额外的可学习参数，这些参数为每一层提供了一种经济高效的方法来改变其特征的大小，从而改变后续组件的梯度大小。

在这里插入图片描述

十二、BP-Transformer

BP-Transformer (BPT) 是 Transformer 的一种，其动机是需要在自注意力的能力和计算复杂性之间找到更好的平衡。该架构通过二进制划分（BP）将输入序列划分为不同的多尺度范围。它结合了随着相对距离的增加而关注上下文信息从细粒度到粗粒度的归纳偏差。上下文信息越远，其表示越粗糙。 BPT可以看作是图神经网络，其节点是多尺度跨度。令牌节点可以参与较近上下文的较小规模跨度和较远距离上下文的较大规模跨度。节点的表示通过图自注意力进行更新。

在这里插入图片描述