Boundary Smoothing for NER

一、摘要

命名实体识别(NER)模型很容易遇到over-confidence的问题,从而降低了性能。受标签平滑的启发,作者以NER中边界标注模糊性作为motivation,提出了边界平滑方法来作为基于span的NER模型的正则化技术。除了标注的span外,它还将实体的概率重新分配到实体周围的span。

作者的模型在8个常用的NER benchmark上取得了SOTA的结果。并通过进一步的实证分析表明,边界平滑有效地缓解了神经模型过度自信,改善了模型的校准,带来了更平滑的模型预测。

二、介绍

最近,基于跨域的模型在NER研究中获得了广泛的欢迎,并取得了最先进的(SOTA)结果。这种方法通常枚举所有候选span,由于一句话中带注释的span是稀缺的,这往往会带来过拟合,所以通常带注释的span会有这接近1的置信度,而其余的候选span置信度为0。这种明显的相邻span的清晰度会影响神经网络的可训练性。此外,经验证据表明,这些模型很容易遇到over-confidence的问题,即预测实体的置信度远远高于其应有的正确性概率。这是校准错误的一种表现(Guoetal.,2017)。

受label smoothing的启发(Szegedy等人,2016;Muller等人,2019年),作者提出了边界平滑(boundary smoothing)作为基于span的神经NER模型的正则化技术。通过对标注实体的周围边界重新分配概率,来缓解模型过度自信的问题,此外,作者还证明了边界平滑可以帮助训练后的NER模型保持校准,从而使产生的置信度可以更好地表示预测实体的精度率,具有更好的泛化性。

三、方法

3.1 Biaffine Decoder

span NER框架下的解码器,预测文本序列span的start和end位置,用来将预测hs和he位置的矩阵,进行联系的方式,使用双衍射矩阵Biaffine来实现。

在这里插入图片描述

3.2 Boundary Smoothing

给定一个带标注的实体,一部分置信度概率θ会被分配给它周围的span,其余的概率1−θ被分配给最初带标注的span。平滑大小为D时,所有曼哈顿距离D(D≤D)的span平均共享概率θ/D。再次之后剩余span都被分配为“非实体”的概率,我们称之为光滑的边界。

在这里插入图片描述

四、实验&结果

4.1 数据集

  • 4个英文NER datasets

    • CoNLL 2003
    • OntoNotes 5
    • ACE 2004
    • ACE 2005
  • 4个中文数据集

    • OntoNotes 4
    • MSRA
    • Weibo NER
    • Resume NER

    其中ACE 2004和ACE 2005是嵌套NER 任务

4.2 参数设置

  • 英文使用 Roberta (768,12 Layers) +BiLSTM
  • 中文使用 BERT-wwm (768,12 Layers)+BiLSTM
  • BiLSTM :一层,hidden size=200,dropout_rate=0.5
  • Baffine decoder:hidden size=150,dropout_rate=0.2
  • boundary smoothing 参数e {0.1,0.2,0.3}
  • smoothing size D {1,2}
  • AdamW 优化器,梯度裁剪
  • 训练50epochs
  • batch-size 48
  • lr 1e-3 and 3e-3
  • 随机初始化权重
  • 线性warmup 前20% steps
  • f1作为评价指标

4.3 实验

4.3.1 baseline设置:
  • 英文:roberta-base+bilstm+biaffine
  • 中文:Bert+Bilstm+biaffine
4.3.2 结果

在这里插入图片描述

4.3.3 消融实验

在CoNLL2003,ACE2005和Resume NER上进行。

在这里插入图片描述

4.4 置信度与实体校准

为了正式调查过度置信,我们绘制了可靠性图并计算了预期校准误差(ECE)。简言之,对于NER模型,我们将所有预测实体按相关置信度分组到十个仓中,然后计算每个仓的准确率。如果模型校准良好,精度率应接近每个仓的置信水平。

在这里插入图片描述

五、总结

基于简单但强大的基线,我们的模型在八个众所周知的NER基准上实现了SOTA结果,包括英语和汉语、平面和嵌套的NER任务。此外,实验结果表明,边界平滑导致较少的过度置信、更好的模型校准、更平坦的神经最小值和更平滑的损失景观。这些特性合理地解释了性能的提高。

我们的发现揭示了平滑正则化技术在NER任务中的作用。正如所讨论的,边界平滑通常会增加总体F1分数,但召回率可能会略有下降;因此,将其用于召回敏感应用程序可能会很小心。未来的工作将把边界平滑应用于基于跨度的NER模型的更多变体,并在更广泛的信息提取任务中研究其效果。

六、个人思考

本文方法和实验都很简单,baffine ner模型基础上,加入label embedding方法。但就是这样的简单组合,配合作者针对置信度这一概念的描述与论证,有力证明了自己的观点。

猜你喜欢

转载自blog.csdn.net/be_humble/article/details/128327031
NER