ALBERT: 自监督语言表示的轻量级BERT

文章目录

引言
词向量因式分解（Factorized embedding parameterization）
跨层参数共享（Cross-layer parameter sharing）
内部句子一致性损失（Inter-sentence coherence loss）

【Reference】
ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

引言

预训练模型使得一些缺乏训练数据的下游任务表现良好，大力出奇迹，大型网络是获得SOTA性能的关键，但随着模型大小的增加，内存占用和训练时间都会增加。那么是否有比大型模型更简单、性能更好的模型？

ALBERT使用两种缩减参数技术：词向量矩阵分解、跨层参数共享。参数缩减可看做为正则化技术，并未严重降低模型性能，提升了模型泛化能力。与BERT-Large模型使用一样的配置，参数量下降18x，速度提升1.7x。

ALBERT引入句序预测自监督方法，关注句子内部的一致性，我们通过实验比较了句序预测（Sentence-Order Prediction，SOP）任务和预测下一句是否被交换（Next Sentence Prediction，NSP）任务损失的变化，发现SOP任务更具有挑战，而且SOP预训练的模型在下游任务中更有用。

与BERT结构类似，ALBERT使用Transformer Encoder和GELU非线性激活函数，相比BERT模型的性能如下：

在这里插入图片描述

词向量因式分解（Factorized embedding parameterization）

在BERT与其改进模型XLNet和RoBERTa中，词嵌入维度 $E$ 和隐藏层维度 $H$ 相等。词嵌入旨在学习语境无关表示，而隐藏层旨在学习语境相关表示。因此，为更有效里面全部模型参数，我们希望能够解开 $E$ 和 $H$ 绑定，使得 $H\gg E$ 。
通常情况下，模型输入词典大小 $V$ 很大，如果 $E\equiv V$ ，当我们需要增加 $H$ 的大小时，意味着也要增加 $E$ 的大小，模型参数将会剧增。因此，我们通过将词嵌入矩阵因式分解为两个小矩阵，当 $H\gg E$ 时，参数量明显降低：
$O(V\times H)\quad \to\quad O(V\times E + E\times H)$

在这里插入图片描述

跨层参数共享（Cross-layer parameter sharing）

有多重参数方式，如共享FFN参数、共享注意力层参数等，ALBERT默认共享所有跨层参数。
在这里插入图片描述

内部句子一致性损失（Inter-sentence coherence loss）

BERT的NSP任务用于提高下游如自然语言推理任务，我们猜想NSP主要无效的原因是，NSP任务倾向于主题预测，相比MLM（Mask Language Modeling）任务过于简单。ALBERT使用SOP任务预测句序，以避免进行主题预测，SOP任务使用同一上下文的两个连续句子作为正例，跌倒顺序的句子作为负例，这有助于模型学习细粒度特性。
在这里插入图片描述