-
来源: ACL2022
-
作者:中科院
-
论文地址:[2204.12031] Boundary Smoothing for Named Entity Recognition (arxiv.org)
-
源码:syuoni/eznlp: Easy Natural Language Processing (github.com)
一、摘要
命名实体识别(NER)模型很容易遇到over-confidence的问题,从而降低了性能。受标签平滑的启发,作者以NER中边界标注模糊性作为motivation,提出了边界平滑方法来作为基于span的NER模型的正则化技术。除了标注的span外,它还将实体的概率重新分配到实体周围的span。
作者的模型在8个常用的NER benchmark上取得了SOTA的结果。并通过进一步的实证分析表明,边界平滑有效地缓解了神经模型过度自信,改善了模型的校准,带来了更平滑的模型预测。
二、介绍
最近,基于跨域的模型在NER研究中获得了广泛的欢迎,并取得了最先进的(SOTA)结果。这种方法通常枚举所有候选span,由于一句话中带注释的span是稀缺的,这往往会带来过拟合,所以通常带注释的span会有这接近1的置信度,而其余的候选span置信度为0。这种明显的相邻span的清晰度会影响神经网络的可训练性。此外,经验证据表明,这些模型很容易遇到over-confidence的问题,即预测实体的置信度远远高于其应有的正确性概率。这是校准错误的一种表现(Guoetal.,2017)。
受label smoothing的启发(Szegedy等人,2016;Muller等人,2019年),作者提出了边界平滑(boundary smoothing)作为基于span的神经NER模型的正则化技术。通过对标注实体的周围边界重新分配概率,来缓解模型过度自信的问题,此外,作者还证明了边界平滑可以帮助训练后的NER模型保持校准,从而使产生的置信度可以更好地表示预测实体的精度率,具有更好的泛化性。
三、方法
3.1 Biaffine Decoder
span NER框架下的解码器,预测文本序列span的start和end位置,用来将预测hs和he位置的矩阵,进行联系的方式,使用双衍射矩阵Biaffine来实现。
3.2 Boundary Smoothing
给定一个带标注的实体,一部分置信度概率θ会被分配给它周围的span,其余的概率1−θ被分配给最初带标注的span。平滑大小为D时,所有曼哈顿距离D(D≤D)的span平均共享概率θ/D。再次之后剩余span都被分配为“非实体”的概率,我们称之为光滑的边界。
四、实验&结果
4.1 数据集
-
4个英文NER datasets
- CoNLL 2003
- OntoNotes 5
- ACE 2004
- ACE 2005
-
4个中文数据集
- OntoNotes 4
- MSRA
- Weibo NER
- Resume NER
其中ACE 2004和ACE 2005是嵌套NER 任务
4.2 参数设置
- 英文使用 Roberta (768,12 Layers) +BiLSTM
- 中文使用 BERT-wwm (768,12 Layers)+BiLSTM
- BiLSTM :一层,hidden size=200,dropout_rate=0.5
- Baffine decoder:hidden size=150,dropout_rate=0.2
- boundary smoothing 参数e {0.1,0.2,0.3}
- smoothing size D {1,2}
- AdamW 优化器,梯度裁剪
- 训练50epochs
- batch-size 48
- lr 1e-3 and 3e-3
- 随机初始化权重
- 线性warmup 前20% steps
- f1作为评价指标
4.3 实验
4.3.1 baseline设置:
- 英文:roberta-base+bilstm+biaffine
- 中文:Bert+Bilstm+biaffine
4.3.2 结果
4.3.3 消融实验
在CoNLL2003,ACE2005和Resume NER上进行。
4.4 置信度与实体校准
为了正式调查过度置信,我们绘制了可靠性图并计算了预期校准误差(ECE)。简言之,对于NER模型,我们将所有预测实体按相关置信度分组到十个仓中,然后计算每个仓的准确率。如果模型校准良好,精度率应接近每个仓的置信水平。
五、总结
基于简单但强大的基线,我们的模型在八个众所周知的NER基准上实现了SOTA结果,包括英语和汉语、平面和嵌套的NER任务。此外,实验结果表明,边界平滑导致较少的过度置信、更好的模型校准、更平坦的神经最小值和更平滑的损失景观。这些特性合理地解释了性能的提高。
我们的发现揭示了平滑正则化技术在NER任务中的作用。正如所讨论的,边界平滑通常会增加总体F1分数,但召回率可能会略有下降;因此,将其用于召回敏感应用程序可能会很小心。未来的工作将把边界平滑应用于基于跨度的NER模型的更多变体,并在更广泛的信息提取任务中研究其效果。
六、个人思考
本文方法和实验都很简单,baffine ner模型基础上,加入label embedding方法。但就是这样的简单组合,配合作者针对置信度这一概念的描述与论证,有力证明了自己的观点。