Boundary Smoothing for NER

来源： ACL2022
作者：中科院
论文地址：[2204.12031] Boundary Smoothing for Named Entity Recognition (arxiv.org)
源码：syuoni/eznlp: Easy Natural Language Processing (github.com)

一、摘要

命名实体识别(NER)模型很容易遇到over-confidence的问题，从而降低了性能。受标签平滑的启发，作者以NER中边界标注模糊性作为motivation，提出了边界平滑方法来作为基于span的NER模型的正则化技术。除了标注的span外，它还将实体的概率重新分配到实体周围的span。

作者的模型在8个常用的NER benchmark上取得了SOTA的结果。并通过进一步的实证分析表明，边界平滑有效地缓解了神经模型过度自信，改善了模型的校准，带来了更平滑的模型预测。

二、介绍

最近，基于跨域的模型在NER研究中获得了广泛的欢迎，并取得了最先进的(SOTA)结果。这种方法通常枚举所有候选span，由于一句话中带注释的span是稀缺的，这往往会带来过拟合，所以通常带注释的span会有这接近1的置信度，而其余的候选span置信度为0。这种明显的相邻span的清晰度会影响神经网络的可训练性。此外，经验证据表明，这些模型很容易遇到over-confidence的问题，即预测实体的置信度远远高于其应有的正确性概率。这是校准错误的一种表现(Guoetal.，2017)。

受label smoothing的启发(Szegedy等人，2016；Muller等人，2019年)，作者提出了边界平滑（boundary smoothing）作为基于span的神经NER模型的正则化技术。通过对标注实体的周围边界重新分配概率，来缓解模型过度自信的问题，此外，作者还证明了边界平滑可以帮助训练后的NER模型保持校准，从而使产生的置信度可以更好地表示预测实体的精度率，具有更好的泛化性。

三、方法

3.1 Biaffine Decoder

span NER框架下的解码器，预测文本序列span的start和end位置，用来将预测hs和he位置的矩阵，进行联系的方式，使用双衍射矩阵Biaffine来实现。

在这里插入图片描述

3.2 Boundary Smoothing

给定一个带标注的实体，一部分置信度概率θ会被分配给它周围的span，其余的概率1−θ被分配给最初带标注的span。平滑大小为D时，所有曼哈顿距离D(D≤D)的span平均共享概率θ/D。再次之后剩余span都被分配为“非实体”的概率，我们称之为光滑的边界。

在这里插入图片描述

四、实验&结果

4.1 数据集

4个英文NER datasets
- CoNLL 2003
- OntoNotes 5
- ACE 2004
- ACE 2005
4个中文数据集
- OntoNotes 4
- MSRA
- Weibo NER
- Resume NER
其中ACE 2004和ACE 2005是嵌套NER 任务

4.2 参数设置

英文使用 Roberta (768,12 Layers) +BiLSTM
中文使用 BERT-wwm (768,12 Layers)+BiLSTM
BiLSTM ：一层，hidden size=200，dropout_rate=0.5
Baffine decoder：hidden size=150，dropout_rate=0.2
boundary smoothing 参数e {0.1,0.2,0.3}
smoothing size D {1,2}
AdamW 优化器，梯度裁剪
训练50epochs
batch-size 48
lr 1e-3 and 3e-3
随机初始化权重
线性warmup 前20% steps
f1作为评价指标

4.3 实验

4.3.1 baseline设置：

英文：roberta-base+bilstm+biaffine
中文：Bert+Bilstm+biaffine

4.3.2 结果

在这里插入图片描述

4.3.3 消融实验

在CoNLL2003，ACE2005和Resume NER上进行。

在这里插入图片描述

4.4 置信度与实体校准

为了正式调查过度置信，我们绘制了可靠性图并计算了预期校准误差（ECE）。简言之，对于NER模型，我们将所有预测实体按相关置信度分组到十个仓中，然后计算每个仓的准确率。如果模型校准良好，精度率应接近每个仓的置信水平。

在这里插入图片描述

五、总结

基于简单但强大的基线，我们的模型在八个众所周知的NER基准上实现了SOTA结果，包括英语和汉语、平面和嵌套的NER任务。此外，实验结果表明，边界平滑导致较少的过度置信、更好的模型校准、更平坦的神经最小值和更平滑的损失景观。这些特性合理地解释了性能的提高。

我们的发现揭示了平滑正则化技术在NER任务中的作用。正如所讨论的，边界平滑通常会增加总体F1分数，但召回率可能会略有下降；因此，将其用于召回敏感应用程序可能会很小心。未来的工作将把边界平滑应用于基于跨度的NER模型的更多变体，并在更广泛的信息提取任务中研究其效果。

六、个人思考

本文方法和实验都很简单，baffine ner模型基础上，加入label embedding方法。但就是这样的简单组合，配合作者针对置信度这一概念的描述与论证，有力证明了自己的观点。