Label Confusion Learning to Enhance Text Classification Models,AAAI2021

在这里插入图片描述
将一个真正的标签表示为one-hot向量是训练文本分类模型的一个常见实践。然而,one-hot表示可能不能充分反映实例和标签之间的关系,因为标签通常不是完全独立的,而实例在实践中可能与多个标签相关。不充分的单热点表示容易使模型过度自信,从而导致模型的任意预测和模型过拟合,特别是对于混淆数据集(标签非常相似的数据集)或噪声数据集(标注错误的数据集)。虽然使用标签平滑(LS)训练模型可以在一定程度上缓解这一问题,但仍然无法捕捉标签之间的真实关系。在本文中,我们提出了一种新的标签混淆模型(LCM)作为当前流行的文本分类模型的增强组件。LCM可以通过在训练过程中计算实例与标签之间的相似度来学习标签混淆,捕捉标签之间的语义重叠,生成一个更好的标签分布来代替原来的one-hot标签向量,从而提高最终的分类性能。
在这里插入图片描述
如图所示,左边的部分是任何一种现有的文本分类基线方法,被当作Encoder预测predict the label distribution (PLD):
在这里插入图片描述
右侧部分用户捕捉样本与标签之间的关联性,被称为simulated label distribution computing block (SLD Block)。具体的操作可以用下述公式表示:
在这里插入图片描述
f L f^L fL表示标签的encoder,将离散的标签映射到 V ( l ) V^{(l)} V(l) C C C表示标签的类别。之后,通过与样本 i i i的表示 v ( i ) v^{(i)} v(i)之间进行类似注意力的计算得到样本与标签的相似度 y ( c ) y^{(c)} y(c)。将 y ( c ) y^{(c)} y(c)与目标标签的one-hot向量进行插值得到最终的相似分布 y ( s ) y^{(s)} y(s)
之后,使用KL散度让PLD的结果去逼近SLD:
在这里插入图片描述

Experiments

实验结果如下,在大部分的时候都有增强:
在这里插入图片描述
对20NG数据集的标签余弦相似度的热力图以及t-SNE可视化。这个非常有趣,因为可以见到相同类别的标签(比如talk)在热力图上会呈现出明显的相关性,而在t-SNE中相同组的标签的距离也会比较相近。
在这里插入图片描述
在20NG数据集上进一步探究,不同组下面本文模型的性能差异:
在这里插入图片描述
按照百分比随机注入噪声:
在这里插入图片描述
在图像分类上表现也不错:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_36618444/article/details/123684008