Stacked DeBERT

论文地址：Stacked DeBERT: All Attention in Incomplete Data for Text Classification

项目地址：https://github.com/gcunhase/StackedDeBERT

我们提出将去噪BERT (DeBERT)叠加作为一种新颖的编码方案，用于对不正确的句子进行不完全的意图分类和情绪分类。如图1所示，该模型的结构为嵌入层和普通变压器层的叠加，类似于传统的BERT[11]，然后是新型降噪Transformer层。该模型的主要目的是通过对含有缺失词的句子进行隐藏嵌入重构，提高BERT对不完整数据的鲁棒性和有效性。通过重构这些隐藏的嵌入，我们可以改进BERT的编码方案。

图1:提出的叠加BERT模型分为三层:嵌入层、常规双向Transformer层和去噪双向Transformer层。

该模型的初始部分是传统的BERT，一个多层双向Transformer编码器和一个强大的语言模型。在训练过程中，BERT对不完整的文本分类语料库进行微调(见第3节)。它还用特殊字符“[CLS]”作为标记序列的前缀，用“[SEP]”字符作为每个句子的后缀。然后是一个用于输入表示的嵌入层，最后的输入嵌入是一组令牌嵌入、分段嵌入和位置嵌入。第一个是令牌嵌入层，它使用词汇表字典将每个令牌转换为更具代表性的嵌入。分段嵌入层通过标记1或0来指示哪些标记构成一个句子。在我们的例子中，由于我们的数据是由单个句子组成的，所以在第一个‘[SEP]’字符出现之前(表示片段A)，然后它变成了0(片段B)。正如名称所示，位置嵌入层添加了与令牌在句子中的位置相关的信息。这为普通双向Transformer层考虑的数据做了准备，它输出一个隐藏的嵌入，可以被我们的新型去噪Transformer层使用。

尽管BERT在处理不完整的数据时表现得比其他基线模型更好，但它仍然不足以完整和有效地处理这些数据。因此，需要进一步改进从缺词句子中得到的隐含特征向量。基于这一目的，我们实现了一种新的编码方案，该方案由去噪Transformer和双向Transformer组成，其中去噪Transformer由多层感知器堆栈组成，通过提取更抽象和有意义的隐藏特征向量来重建缺失的词嵌入，而双向Transformer则用于改进嵌入表示。嵌入重构步骤以从不完整数据 $h_{inc}$ 中提取的句子嵌入作为输入，以其完整版本 $h_{comp}$ 对应的嵌入作为目标。输入和目标都得到应用嵌入层和vanilla transformers后,显示在图1中,并且形状( $N_{bs}$ , 768, 128),其中，Nbs为批量大小，768为单个令牌的原始BERT嵌入大小，128为句子中的最大序列长度。

多层感知器的堆栈结构是由三层构成的两组，每组包含两个隐藏层。第一个集合负责将 $h_{inc}$ 压缩为一个隐空间表示，将更多抽象特征提取到具有形状( $N_{bs}$ , 128, 128)、( $N_{bs}$ , 32, 128)和( $N_{bs}$ , 12, 128)的低维向量 $z_{1}$ 、 $z_{2}$ 和z中。这一过程如式(1)所示: