Stacked DeBERT

论文地址:Stacked DeBERT: All Attention in Incomplete Data for Text Classification

项目地址:https://github.com/gcunhase/StackedDeBERT

我们提出将去噪BERT (DeBERT)叠加作为一种新颖的编码方案,用于对不正确的句子进行不完全的意图分类和情绪分类。如图1所示,该模型的结构为嵌入层和普通变压器层的叠加,类似于传统的BERT[11],然后是新型降噪Transformer层。该模型的主要目的是通过对含有缺失词的句子进行隐藏嵌入重构,提高BERT对不完整数据的鲁棒性和有效性。通过重构这些隐藏的嵌入,我们可以改进BERT的编码方案。

                      

图1:提出的叠加BERT模型分为三层:嵌入层、常规双向Transformer层和去噪双向Transformer层。

该模型的初始部分是传统的BERT,一个多层双向Transformer编码器和一个强大的语言模型。在训练过程中,BERT对不完整的文本分类语料库进行微调(见第3节)。它还用特殊字符“[CLS]”作为标记序列的前缀,用“[SEP]”字符作为每个句子的后缀。然后是一个用于输入表示的嵌入层,最后的输入嵌入是一组令牌嵌入、分段嵌入和位置嵌入。第一个是令牌嵌入层,它使用词汇表字典将每个令牌转换为更具代表性的嵌入。分段嵌入层通过标记1或0来指示哪些标记构成一个句子。在我们的例子中,由于我们的数据是由单个句子组成的,所以在第一个‘[SEP]’字符出现之前(表示片段A),然后它变成了0(片段B)。正如名称所示,位置嵌入层添加了与令牌在句子中的位置相关的信息。这为普通双向Transformer层考虑的数据做了准备,它输出一个隐藏的嵌入,可以被我们的新型去噪Transformer层使用。

尽管BERT在处理不完整的数据时表现得比其他基线模型更好,但它仍然不足以完整和有效地处理这些数据。因此,需要进一步改进从缺词句子中得到的隐含特征向量。基于这一目的,我们实现了一种新的编码方案,该方案由去噪Transformer和双向Transformer组成,其中去噪Transformer由多层感知器堆栈组成,通过提取更抽象和有意义的隐藏特征向量来重建缺失的词嵌入,而双向Transformer则用于改进嵌入表示。嵌入重构步骤以从不完整数据h_{inc}中提取的句子嵌入作为输入,以其完整版本h_{comp}对应的嵌入作为目标。输入和目标都得到应用嵌入层和vanilla transformers后,显示在图1中,并且形状(N_{bs}, 768, 128),其中,Nbs为批量大小,768为单个令牌的原始BERT嵌入大小,128为句子中的最大序列长度。

多层感知器的堆栈结构是由三层构成的两组,每组包含两个隐藏层。第一个集合负责将h_{inc}压缩为一个隐空间表示,将更多抽象特征提取到具有形状(N_{bs}, 128, 128)、(N_{bs}, 32, 128)和(N_{bs}, 12, 128)的低维向量z_{1}z_{2}和z中。这一过程如式(1)所示:

                             

其中f(·)为参数化函数,将h_{inc}映射到隐藏状态z,第二组分别将z_{1}z_{2}、z重构为h_{rec1}h_{rec2}h_{rec}。这一过程如式(2)所示:                                       

其中g(·)是将z重构为的参数化函数

通过均方误差损失函数将重构后的隐藏句嵌入h_{rec}与完整的隐藏句嵌入h_{comp}进行比较,如Eq(3)所示:

                            

根据不完全句重构出正确的隐藏嵌入后,将正确的隐藏嵌入提供给双向Transformer以生成输入表示。然后,在不完整的文本分类c上,以端到端方式对模型进行微调。

利用前馈网络和softmax激活函数进行分类。Softmax   σ为数控类是一个离散型概率分布函数,类概率的总和是1和预测类的最大价值。所预测的类可以用公式进行数学计算:

                           

其中o = W t + b,用于分类的前馈层的输出。

发布了104 篇原创文章 · 获赞 97 · 访问量 26万+

猜你喜欢

转载自blog.csdn.net/weixin_37947156/article/details/103821773
今日推荐