ACL2020 Semantics-aware BERT for Language Understanding

一、 本文所做工作

目前的预训练语言模型虽然取得很大的成功,但是仅仅引入上下文特征,例如character embedding和word embedding。本文提出通过预训练的语义标注器整合显示的上下文语义,可以提升自然语言理解效果,并提出了对BERT的改进(SemBERT),在BERT上吸收上下文语义。
模型分为三个组件:

1) 现成的语义角色标记器

用来对句子进行语义标签的标注。

2) 一种序列编码器

使用到了预训练语言模型,用来生成文本的表示,语义标签则并行地被映射成embedding。

3) 一个整合语义信息和文本表示的组件

获得为下游任务准备的一个联合表示。

二、 Background and Related Work

1) 语言模型。

本文使用pre-trained BERT来作为backbone encoder。

2) 明确的上下文语义。

虽然语言模型已经隐式包含了语义信息,但是不太够。SRL是以句子谓词为中心,分析句子中各个成分与谓词的关系,即句子的谓词(Predicate)-论元(Argument)结构。作者正是希望将这种关系引入到模型中去。
作者使用了He et al. (2017)提出的deep highway BiLSTM with constrained decoding模型来作为基础的semantic role labeler。

三、 Model

SemBERT能够处理多个序列输入。输入序列中的单词被传递给semantic role labeler,获取多个显式语义的谓词驱动结构,并在一个线性层后聚合相应的嵌入内容形成最后的语义嵌入
同时,输入序列被BERT词块标记器分割成子词,然后通过卷积层将子词表示转换回词级以获得上下文单词表示。
最后将单词表示和语义嵌入相结合,形成下游任务的联合表示。
在这里插入图片描述

1) Semantic Role Labeling

数据预处理的时候,每个句子都被标注成一些语义序列,这里用到了预训练好的semantic labeler。不过对于一个句子而言,可能会出现多种可能的标注,例如这句Reconstructing dormitories will not be approved by cavanaugh。以谓词approved为中心的话,则施事者(ARG0)为by cavanaugh,受事者(ARG1)为reconstructing dormitories。而以reconstructing为中心的话,则受事者为dormitories。因此这里对语义标签进行分组,并且将他们和BERT的text embedding整合。输入表示如下:
在这里插入图片描述

2) Encoding

首先将原始文本序列和语义角色标签序列表示为嵌入向量,以提供一个预训练的BERT。输入序列 是长度为n的单词序列,首先标记为词块,然后为每一个词通过self-attention转换编码捕获上下文信息,并且生成上下文embedding序列。
对于多语义的表示,每个标签对应一种embedding,假设存在m种标记方式,序列长度为n,那么每一个谓词相关的m个标签序列 ,ti包含n个标签 。因为标签是单词级的,所以长度是原始输入X的长度n。将语义信号视为embedding,通过lookup table将这些标签映射成向量 ,再通过一个BiGRU层获得m个标签序列的标签表示:

对于m个标签序列,用Li表示每个词xi的标签序列
最后连接这m个序列的标签表示,并通过一个全连接层获得d维精细的联合表示:

3) Integration

由于BERT是基于子词序列,而引入的语义标签基于词级别,所以需要对这些序列进行对齐。
使用CNN并通过max pooling获得word级别的表示,然后将这个表示和semantic embeddings进行拼接。
假设一个单词xi的子词序列 ,获得BERT的表示e(sj),然后通过一个Conv1D层 b1,接下来y用ReLU和max polling获得单词xi的输出embedding:

所以对于输入序列X的表示就是: 。
最后通过一个融合函数对齐上下文和semantic embeddings:

四、 Results

在这里插入图片描述

由于SemBERT以BERT为主,使用相同的评估过程,因此其取得的效果来自于新引入的显式上下文语义。
Ablation Study
在这里插入图片描述

消融实验:如果不进行对齐,直接给每一个subword拼接上对应word的SRL embedding,效果略有提升,说明SRL信息起到了效果,而对这二者再进行对齐的SemBERT,则取得了更好的效果。
The influence of the number m
谓词-论元结构数量m的影响:
在这里插入图片描述

五、 Conclusion

显式上下文语义可以有效地与最先进的预训练语言表示相结合,获得更好的性能。

猜你喜欢

转载自blog.csdn.net/qq_41018465/article/details/109266123