【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification

【论文精读】AAAI 2022 - 统一的命名实体识别作为词与词之间的关系分类

【论文原文】:Unified Named Entity Recognition as Word-Word Relation Classification

【作者信息】:Li, Jingye and Fei, Hao and Liu, Jiang and Wu, Shengqiong and Zhang, Meishan and Teng, Chong and Ji, Donghong and Li, Fei

论文:https://arxiv.org/pdf/2112.10070.pdf
代码:https://github.com/ljynlp/W2NER

博主关键词:命名实体识别,关系分类

推荐论文:CasRel,TPLinker

摘要

到目前为止,命名实体识别(NER)已经涉及三种主要类型,包括扁平、重叠(又名嵌套)和不连续NER,它们大多是单独研究的。最近,人们对统一的NER越来越感兴趣,用一个单一的模式同时处理上述三个工作。目前性能最好的方法主要包括基于跨度的和seq2seq的模型,不幸的是,前者仅专注于边界识别,而后者可能存在暴露偏差。在这项工作中,我们通过将统一的NER建模为单词-单词关系分类,提出了一种新的替代方法,即W2NER。该体系结构通过有效地建模具有Next-Neighboring-Word(NNW)和Tail-Head_word-*(THW-*)关系的实体词之间的相邻关系,解决了统一NER的核心瓶颈。基于W2NER方案,我们开发了一个神经网络框架,其中统一的NER被建模为单词对的2D网格。然后,我们提出了多粒度2D卷积,以更好地细化网格表示。最后,使用共同预测器来充分推理单词之间的关系。我们在14个广泛使用的基准数据集上进行了广泛的实验,用于扁平、重叠和不连续的NER(8个英文数据集和6个中文数据集),其中我们的模型击败了所有当前表现最好的基线,推动了统一NER的最先进性能。

1、简介

命名实体识别(NER)长期以来一直是自然语言处理(NLP)社区的一项基本任务,因为它具有广泛的基于知识的应用,例如关系提取(Wei et al 2020; Li et al 2021b)、实体链接(Le and Titov 2018; Hou et al 2020)等。命名实体识别的研究最初是从扁平的NER逐渐演变而来的(Lample et al 2016; Strubell et al 2017),晚至重叠NER (Yu et al 2020; Shen et al 2021),最近至不连续NER。(Dai et al 2020; Li et al 2021a)。具体来说,扁平NER只是从文本中检测提及跨度及其语义类别,然而在重叠NER的不连续NER中的问题变得更加复杂,重叠实体包含相同的token,不连续实体需要不相邻的跨度,如图1所示。

以前的多类型NER方法可以大致分为四大类:1)序列标记,2)基于超图的方法,3)Seq2Seq的方法和4)基于跨度的方法。大多数初始工作将NER形式化为序列标记问题(Lample et al 2016; Zheng et al 2019; Tang et al 2018; Straková et al 2019),为每个token分配一个标签。然而,很难为所有NER子任务设计一个标记方案。然后,提出了基于超图的模型(Lu and Roth 2015; Wang and Lu 2018; Katiyar and Cardie 2018)来表示所有实体跨度,然而,在推理过程中,这些实体跨度同时存在虚假结构和结构模糊问题。最近,Yan等人(2021)提出了一种序列-序列(Seq2Seq)模型来直接生成各种实体,但不幸的是,该模型可能存在解码效率问题以及Seq2Sq体系结构的某些常见缺陷,例如暴露偏差。基于跨度的方法是统一净入学率的另一种最先进的方法,列举了所有可能的跨度并进行跨度级分类。然而,由于枚举的性质,基于跨度的模型(Luan et al 2019; Li et al 2021a)可能受到最大跨度长度的影响,并导致相当大的模型复杂性。因此,设计一个有效的统一NER系统仍然具有挑战性。

大多数现有的工作主要集中在如何准确识别实体边界,即NER的核心问题,尤其是扁平边界 (Straková et al 2019; Fei et al 2021)。然而,在仔细反思这三种类型的NER的共同特征后,我们发现统一NER的瓶颈更多地在于实体词之间相邻关系的建模。这种邻接相关性本质上描述了部分文本片段之间的语义连接,尤其是对于重叠和不连续的文本片段起着关键作用。如图1(a)所示,由于其组成词都是自然相邻的,因此很容易检测到“aching in legs”这一扁平的提及。但是,要检测出“aching in shoulders”这一不连续实体,有效地捕捉“aching in”和“shoulders”相邻片段之间的语义关系是必不可少的。

在上述观察的基础上,我们在本文中研究了一种新的词-词关系分类体系结构的统一NER形式,即W2NER。我们的方法通过有效地建模实体边界识别以及实体词之间的相邻关系来解决统一的NER。具体而言,W2NER对两种类型的关系进行预测,包括Next-Neighboring-Word(NNW)和Tail-Head-Word-*(THW-*),如图1(b)所示。NNW关系处理实体词标识,指示两个论元词在一个实体中是否相邻(例如 aching→in),而THW-*关系说明了实体边界和类型检测,揭示了两个论元词是否分别是“*”实体的尾部和头部边界(例如,legs→aching、Symptom)。

在W2NER方案的基础上,我们进一步提出了统一NER的神经框架(参见图3)。首先,BERT(Devlin et al 2019)和BiLSTM(Lample et al 2016)用于提供上下文的单词表示,在此基础上,我们为单词对构建了二维(2D)网格。然后,我们设计了多粒度的2D卷积来细化词对表示,有效地捕捉了近词对和远词对之间的交互。共同预测器最终对单词-单词关系进行推理,并产生所有可能的实体提及,其中biaffine和多层感知器(MLP)分类器被联合使用以获得互补的好处。

我们在14个数据集上进行了广泛的实验,从2个英文和4个中文数据集到扁平NER,3个英文和2个中文数据集中到重叠NER;3个英文数据集到不连续NER。与扁平NER的12个基线、重叠NER的7个基线、不连续NER的7个基线相比,我们的模型在所有数据集上都取得了最好的性能,成为统一NER新的SoTA方法。我们的贡献包括:

  • 我们提出了一种创新的方法来铸造统一的NER作为词与词之间的关系分类,其中充分考虑了实体的边界词和内部词之间的关系。
  • 我们为统一NER开发了一个神经框架,在该框架中,我们新提出了一种多粒度2D卷积方法,用于充分捕捉近词和远词之间的相互作用。
  • 我们的模型在总共14个数据集上推动了NER的当前SoTA性能。

2、NER作为词之间关系分类

扁平、重叠、不连续的NER可以形式化为:给定一个由 N N N个token或单词 X = { x 1 , x 2 , … , x N } X=\{x_1,x_2,\ldots,x_N\} X={ x1,x2,,xN}组成的输入句子,该任务旨在提取每个token对 ( x i , x j ) (x_i,x_j) (xi,xj)之间的关系 R \mathcal{R} R,其中 R \mathcal{R} R是预定义的,包括NONE、Next-Neighboring-Word(NNW)和Tail-Head-Word-*(THW-*)。这些关系可以解释如下,为了更好地理解,我们还举了一个如图2所示的例子。

  • NONE,表示该词对没有本文中定义的任何关系。
  • Next-Neighboring-Word:NNW关系表示单词对属于实体提及,并且网格的某行中的单词在网格的某列中有一个连续的单词。
  • Tail-Head-Word-*:THW关系表示网格中某行的单词是实体提及的词尾,网格中某列的单词是主体提及的词头。“*”表示实体类型。

通过这样的设计,我们的框架能够同时识别扁平、重叠和不连续的实体。如图2所示,很容易就能通过NNW关系(aching→in),(in→legs),(in→shoulders)和THW关系(legs→aching, Symptom),(shoulders→aching, Symptom),解码出两个实体“aching in legs”和“aching in shoulders”。此外,NNW和THW关系暗示了NER的其他影响。例如,NNW关系将同一不连续实体的片段(例如,“aching in”和“shoulders”)相关联,它们也有利于识别实体词(相邻)和非实体词(非相邻)。THW关系有助于确定实体的边界,这在最近的NER研究中发挥了重要作用 (Zheng et al 2019; Fei et al 2021; Shen et al 2021)。

3、统一的命名实体识别框架

我们的框架的体系结构如图3所示,它主要由三个组件组成。首先,广泛使用的预训练语言模型BERT(Devlin et al 2019)和双向LSTM(Lample et al 2016)被用作编码器,以从输入句子中产生上下文的单词表示。然后使用卷积层来构建和细化单词对网格的表示,用于以后的单词-单词关系分类。之后,利用包含biaffine分类器和多层感知器的共同预测层(Li et al 2021b)来联合推理所有单词对之间的关系。

3.1 编码层

我们利用BERT(Devlin et al 2019) 作为我们模型的输入,因为它已被证明是NER (Wang et al 2021)和关系分类 (Li et al 2021b)中表征学习的最先进模型之一。给定一个输入句子 X = { x 1 , x 2 , … , x N } X=\{x_1,x_2,\ldots,x_N\} X={ x1,x2,,xN},我们将每个token或单词 x i x_i xi转换为单词片段,然后将其输入到预处理的BERT模块中。在BERT计算之后,每个句子单词可能涉及几个片段的矢量表示。在这里,我们使用最大池化来基于分词表示来产生单词表示。为了进一步增强上下文建模,我们遵循了先前的工作(Wadden et al 2019;Li et al 2021a),采用双向LSTM(Lample et al 2016)来生成最终的单词表示,即 H = { h 1 , h 2 , … , h N } ∈ R N × d h H=\{h_1,h_2,\ldots,h_N\}∈\mathbb{R}^{N×d_h} H{ h1,h2,,hN}RN×dh,其中 d h d_h dh表示单词表示的维度。

3.2 卷积层

我们采用卷积神经网络(CNNs)作为表示细化器,因为CNNs自然适用于网格上的2D卷积,并且在处理关系描述工作方面也表现出非常突出的作用(Zeng et al 2014; Wanget al 2016)。我们的卷积层包括三个模块,包括一个具有条件层标准化(Liu et al ,2021),用于生成文字网格的表示,一个BERT样式的网格表示构建,用于丰富文字网格的表达,以及一个多粒度空洞卷积,用于捕获近距离单词之间的交互。

3.2.1 条件层标准化(CLN)

由于我们框架的目标是预测单词对之间的关系,因此生成高质量的单词对网格表示非常重要,可以将其视为三维矩阵 V ∈ R N × N × d h V∈\mathbb{R}^{N×N×d_h} VRN×N×dh,其中 V i j V_{ij} Vij表示单词对的表示 ( x i , x j ) (x_i,x_j) (xi,xj)。因为NNW和THW关系都是有方向性的,即从某行中的单词 x i x_i xi到某列中的单词 x j x_j xj,如图2所示(例如,(aching→in),(in→legs)),词对 ( x i , x j ) (x_i,x_j) (xi,xj)的表示 V i j V_{ij} Vij可以被视为 x i x_i xi的表示 h i h_i hi x j x_j xj的表示 h j h_j hj的组合,其中组合应该意味着 x j x_j xj x i x_i xi为条件。受Liu等人(2021)的启发,我们采用条件层归一化(CLN)机制来计算 V i j V_{ij} Vij
V i j = CLN ( h i , h j ) = γ i j ⊙ ( h j − μ σ ) + λ i j (1) V_{ij}=\text{CLN}(h_i,h_j)=\gamma_{ij} \odot (\frac{h_j -\mu}{\sigma}) +\lambda_{ij} \tag{1} Vij=CLN(hi,hj)=γij(σhjμ)+λij(1)
h i h_i hi是层标准化的增益参数 γ i j = W α h i + b α γ_{ij}=W_αh_i+b_α γij=Wαhi+bα和偏置 λ i j = W β h i + b β λ_{ij}=W_βh_i+b_β λij=Wβhi+bβ的条件。 µ µ µ σ σ σ h j h_j hj元素的平均值和标准偏差,表示为:
μ = 1 d h ∑ k = 1 d h h j k , σ = 1 d h ∑ k = 1 d h ( h j k − μ ) 2 (2) \mu=\frac{1}{d_h} \sum_{k=1}^{d_h}h_{jk},\sigma=\sqrt{\frac{1}{d_h} \sum_{k=1}^{d_h} (h_{jk}-\mu)^2} \tag{2} μ=dh1k=1dhhjk,σ=dh1k=1dh(hjkμ)2 (2)
h j k h_{jk} hjk是第 k k k层的维度 h j h_j hj

3.2.2 BERT样式网格表示构建

众所周知,BERT(Devlin et al 2019)的输入由三部分组成,即token嵌入、位置嵌入和分段嵌入,它们分别对单词、位置和句子信息进行建模。受BERT的启发,我们使用类似的思想丰富了单词对网格的表示,其中张量 V ∈ R N × N × d h V∈\mathbb{R}^{N×N×d_h} VRN×N×dh表示单词信息,张量 E d ∈ R N × N × d E d E^d∈\mathbb{R}^{N \times N×d_{E_d}} EdRN×N×dEd表示每对单词之间的相对位置信息,张量 E t ∈ R N × N × d E t E^t∈\mathbb{R}^{N \times N×d_{E_t}} EtRN×N×dEt表示用于区分网格中下三角区域和上三角区域的区域信息。然后,我们将三种嵌入连接起来,并采用多层感知器(MLP)来降低它们的维数,并混合这些信息,以获得网格 C ∈ R N × N × d c C∈\mathbb{R}^{N×N×d_c} CRN×N×dc的位置区域感知表示。整个过程可以公式化为:
C = MLP 1 ( [ V ; E d ; E t ] ) (3) C=\text{MLP}_1([V;E^d;E^t]) \tag{3} C=MLP1([V;Ed;Et])(3)

3.2.3 多粒度空洞卷积

受TextCNN(Kim 2014)的启发,我们采用了具有不同空洞率 l l l(例如, l ∈ [ 1 , 2 , 3 ] l∈[1,2,3] l[123])的多个二维空洞卷积(DConv)来捕捉不同距离的单词之间的相互作用,因为我们的模型是预测这些单词之间的关系。一个空洞卷积中的计算可以公式化为:
Q l = σ ( DConv l ( C ) ) (4) Q^l=\sigma(\text{DConv}_l(C)) \tag{4} Ql=σ(DConvl(C))(4)
Q l ∈ R N × N × d c Q^l \in \mathbb{R}^{N \times N \times d_c} QlRN×N×dc表示具有空洞率 l l l的空洞卷积的输出, σ σ σ是GELU激活函数(Hendrycks and Gimpel,2016)。之后,我们可以得到最终的字对网格表示 Q = [ Q 1 , Q 2 , Q 3 ] ∈ R N × N × 3 d c Q=[Q^1,Q^2,Q^3]∈\mathbb{R}^{N×N×3d_c} Q=[Q1Q2Q3]RN×N×3dc

3.3 共同预测层

在卷积层之后,我们获得单词对网格表示 Q Q Q,用于使用MLP预测每对单词之间的关系。然而,先前的工作(Li et al 2021b)已经表明,MLP预测器可以通过与biaffine预测器合作进行关系分类来增强。因此,我们将这两个预测因子同时用于计算单词对 ( x i , x j ) (x_i,x_j) (xi,xj)的两个单独的关系分布,并将它们合并为最终预测。

3.3.1 Biaffine预测器

biaffine预测器的输入是编码器层的输出 H = { h 1 , h 2 , … , h N } ∈ R N × d h H=\{h_1,h_2,\ldots,h_N\}∈\mathbb{R}^{N×d_h} H={ h1,h2,,hN}RN×dh,这可以被认为是当前深度学习研究中广泛使用的残差连接(He et al 2016)。给定单词表示 H H H,我们使用两个MLP分别计算subject ( x i ) (x_i) (xi)和object ( x j ) (x_j) (xj)单词表示 s i s_i si o j o_j oj。然后,使用biaffine分类器(Dozat and Manning 2017)计算一对subject词和object词 ( x i , x j ) (x_i,x_j) (xi,xj)之间的关系得分:
s i = MLP 2 ( h i ) (5) s_i=\text{MLP}_2(h_i) \tag{5} si=MLP2(hi)(5)

o i = MLP 3 ( h j ) (6) o_i=\text{MLP}_3(h_j) \tag{6} oi=MLP3(hj)(6)

y i j ′ = s i τ U o j + W [ s i ; o j ] + b (7) y_{ij}'=s_i^{\tau}U o_j + W[s_i;o_j]+b \tag{7} yij=siτUoj+W[si;oj]+b(7)

U , W , b U,W,b U,W,b是可训练参数, s i , o j s_i,o_j si,oj是subject和object第 i , j i,j i,j个词的表示。 y i j ′ ∈ R ∣ R ∣ y_{ij}' \in \mathbb{R}^{|\mathcal{R}|} yijRR是预定义好关系 R \mathcal{R} R的得分。

3.3.2 MLP预测器

基于词对网格表征 Q Q Q,我们使用MLP计算词对 ( x i , x j ) (x_i,x_j) (xi,xj)的关系得分 Q i j Q_{ij} Qij
y i j ′ ′ = MLP ( Q i j ) (8) y_{ij}''=\text{MLP}(Q_{ij}) \tag{8} yij′′=MLP(Qij)(8)
y i j ′ ′ ∈ R ∣ R ∣ y_{ij}'' \in \mathbb{R}^{|\mathcal{R}|} yij′′RR是预定义好的关系 R \mathcal{R} R得分。最终词对 ( x i , x j ) (x_i,x_j) (xi,xj)的概率得分为 y i j y_{ij} yij,计算过程如下所示:
y i j = Softmax ( y i j ′ + y i j ′ ′ ) y_{ij}=\text{Softmax}(y_{ij}'+y_{ij}'') yij=Softmax(yij+yij′′)

3.4 解码器

我们模型的预测是单词及其关系,可以认为是一个有方向的单词图。解码的目的是利用NNW关系在图中找到从一个词到另一个词的特定路径。每个路径对应一个实体提及。除了NER的类型和边界识别外,THW关系还可以用作消歧的辅助信息。图4说明了从容易到困难的四种解码情况。

  • 在示例(a)中,两条路径“A→B”和“D→E”对应于扁平实体,THW关系表示它们的边界和类型。
  • 在示例(b)中,如果没有THW关系,我们只能找到一条路径,因此缺少“BC”。相比之下,借助THW关系,很容易识别出“BC”嵌套在“ABC”中,这表明了THW关系的必要性。
  • 案例(c)展示了如何识别不连续的实体。两条路径“A→B→C”和“A→B→D”可以找到,并且NNW关系有助于连接不连续跨度“AB”和“D”。
  • 考虑到一个复杂而罕见的情况(d),不可能解码正确的实体“ACD”和“BCE”,因为我们可以在这种不明确的情况下只使用NNW关系找到4条路径。相反,只有使用THW关系才能识别连续实体(例如,“ABCD”),而不是正确的不连续实体(如,“ACD”)。因此,我们可以通过协作使用这两种关系来获得正确的答案。

3.5 学习

对于每一个句子 X = { x 1 , x 2 , … , x N } X=\{x_1,x_2,\ldots,x_N\} X={ x1,x2,,xN},我们的学习目标是最小化对数似然损失:
L = − f r a c 1 N 2 = ∑ i = 1 N ∑ j = 1 N ∑ r = 1 ∣ R ∣ y ^ i j r log ⁡ y i j r (10) L=-frac{1}{N^2}=\sum_{i=1}^{N} \sum_{j=1}^N \sum_{r=1}^{|\mathcal{R}|} \hat y_{ij}^{r} \log y_{ij}^r \tag{10} L=frac1N2=i=1Nj=1Nr=1Ry^ijrlogyijr(10)
N N N代表句子中的单词数, y ^ i j \hat y_{ij} y^ij是表示单词对 ( x i , x j ) (x_i,x_j) (xi,xj)的正确关系标签的二分类向量和 y i j y_{ij} yij是预测概率向量。 r r r表示预定义关系集 R \mathcal{R} R的第 r r r个关系。

4、实验

消融实验

5、总结

在本文中,我们提出了一种新的基于单词-单词关系分类的统一NER框架,以同时处理统一的NER。单词对之间的关系被预定义为下一个相邻单词关系和尾首词关系。我们发现,我们的框架对各种NER非常有效,它在14个广泛使用的基准数据集上实现了SoTA性能。此外,我们提出了一种新的骨干模型,该模型由BERT-BiLSTM编码器层、用于构建和细化词对网格表示的卷积层以及用于联合推理关系的共同预测器层组成。通过消融研究,我们发现我们的以卷积为中心的模型表现良好,并且提出的几个模块,如共同预测器和网格表示富集也是有效的。我们的框架和模型易于遵循,这将促进NER研究的发展。

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper

最近工作

猜你喜欢

转载自blog.csdn.net/qq_45041871/article/details/130221722