Semantics-aware BERT for Language Understanding

一、本文所做工作
二、 Background and Related Work
- 1）语言模型。
- 2）明确的上下文语义。
三、 Model
四、 Results
五、 Conclusion

一、本文所做工作

目前的预训练语言模型虽然取得很大的成功，但是仅仅引入上下文特征，例如character embedding和word embedding。本文提出通过预训练的语义标注器整合显示的上下文语义，可以提升自然语言理解效果，并提出了对BERT的改进（SemBERT），在BERT上吸收上下文语义。
模型分为三个组件：

1）现成的语义角色标记器

用来对句子进行语义标签的标注。

2）一种序列编码器

使用到了预训练语言模型，用来生成文本的表示，语义标签则并行地被映射成embedding。

3）一个整合语义信息和文本表示的组件

获得为下游任务准备的一个联合表示。

二、 Background and Related Work

1）语言模型。

本文使用pre-trained BERT来作为backbone encoder。

2）明确的上下文语义。

虽然语言模型已经隐式包含了语义信息，但是不太够。SRL是以句子谓词为中心，分析句子中各个成分与谓词的关系，即句子的谓词（Predicate）-论元（Argument）结构。作者正是希望将这种关系引入到模型中去。
作者使用了He et al. (2017)提出的deep highway BiLSTM with constrained decoding模型来作为基础的semantic role labeler。

三、 Model

SemBERT能够处理多个序列输入。输入序列中的单词被传递给semantic role labeler，获取多个显式语义的谓词驱动结构，并在一个线性层后聚合相应的嵌入内容形成最后的语义嵌入
同时，输入序列被BERT词块标记器分割成子词，然后通过卷积层将子词表示转换回词级以获得上下文单词表示。
最后将单词表示和语义嵌入相结合，形成下游任务的联合表示。
在这里插入图片描述

1） Semantic Role Labeling

数据预处理的时候，每个句子都被标注成一些语义序列，这里用到了预训练好的semantic labeler。不过对于一个句子而言，可能会出现多种可能的标注，例如这句Reconstructing dormitories will not be approved by cavanaugh。以谓词approved为中心的话，则施事者（ARG0）为by cavanaugh，受事者（ARG1）为reconstructing dormitories。而以reconstructing为中心的话，则受事者为dormitories。因此这里对语义标签进行分组，并且将他们和BERT的text embedding整合。输入表示如下：
在这里插入图片描述

2） Encoding

首先将原始文本序列和语义角色标签序列表示为嵌入向量，以提供一个预训练的BERT。输入序列是长度为n的单词序列，首先标记为词块，然后为每一个词通过self-attention转换编码捕获上下文信息，并且生成上下文embedding序列。
对于多语义的表示，每个标签对应一种embedding，假设存在m种标记方式，序列长度为n，那么每一个谓词相关的m个标签序列，ti包含n个标签。因为标签是单词级的，所以长度是原始输入X的长度n。将语义信号视为embedding，通过lookup table将这些标签映射成向量，再通过一个BiGRU层获得m个标签序列的标签表示：

对于m个标签序列，用Li表示每个词xi的标签序列
最后连接这m个序列的标签表示，并通过一个全连接层获得d维精细的联合表示：

3） Integration

由于BERT是基于子词序列，而引入的语义标签基于词级别，所以需要对这些序列进行对齐。
使用CNN并通过max pooling获得word级别的表示，然后将这个表示和semantic embeddings进行拼接。
假设一个单词xi的子词序列，获得BERT的表示e(sj)，然后通过一个Conv1D层 b1，接下来y用ReLU和max polling获得单词xi的输出embedding：

所以对于输入序列X的表示就是：。
最后通过一个融合函数对齐上下文和semantic embeddings：

四、 Results

在这里插入图片描述

由于SemBERT以BERT为主，使用相同的评估过程，因此其取得的效果来自于新引入的显式上下文语义。
Ablation Study
在这里插入图片描述

消融实验：如果不进行对齐，直接给每一个subword拼接上对应word的SRL embedding，效果略有提升，说明SRL信息起到了效果，而对这二者再进行对齐的SemBERT，则取得了更好的效果。
The influence of the number m
谓词-论元结构数量m的影响：
在这里插入图片描述

五、 Conclusion

显式上下文语义可以有效地与最先进的预训练语言表示相结合，获得更好的性能。

ACL2020 Semantics-aware BERT for Language Understanding

Semantics-aware BERT for Language Understanding

一、本文所做工作

1）现成的语义角色标记器

2）一种序列编码器

3）一个整合语义信息和文本表示的组件

二、 Background and Related Work

1）语言模型。

2）明确的上下文语义。

三、 Model

1） Semantic Role Labeling

2） Encoding

3） Integration

四、 Results

五、 Conclusion

猜你喜欢

ACL2020 Semantics-aware BERT for Language Understanding

Semantics-aware BERT for Language Understanding

一、 本文所做工作

1） 现成的语义角色标记器

2） 一种序列编码器

3） 一个整合语义信息和文本表示的组件

二、 Background and Related Work

1） 语言模型。

2） 明确的上下文语义。

三、 Model

1） Semantic Role Labeling

2） Encoding

3） Integration

四、 Results

五、 Conclusion

猜你喜欢

一、本文所做工作

1）现成的语义角色标记器

2）一种序列编码器

3）一个整合语义信息和文本表示的组件

1）语言模型。

2）明确的上下文语义。