BERT用于序列到序列的多标签文本分类

BERT FOR SEQUENCE-TO-SEQUENCE MULTI-LABEL TEXT CLASSIFICATION

引言

我们的主要贡献如下:

1. 我们将BERT的结果作为编码器呈现在MLTC数据集的序列到序列框架中，具有或不具有类上的给定层次树结构。

2. 介绍并实验验证了一种新的MLTC混合模型。

3.我们微调vanilla BERT模型来执行多标签文本分类。据我们所知，这是第一次使用BERT进行实验，并探索其用于多标签设置和分层文本分类的特殊属性。

4. 我们展示了最先进的结果在三个精心研究的MLTC数据集与英语文本和两个私人Yandex出租车数据集与俄罗斯文本。

基于bert的多标签文本分类模型

bert模型作为一个文本编码器

BERT(来自transformer的双向编码器表示)是最近提出的一种用于获取文本嵌入的语言表示模型。BERT被预先训练成蒙面单词预测和下一个句子预测任务的无标签文本，提供深层的双向表征。对于分类任务，在文本的开头放置一个特殊的标记(token, CLS)，并设计标记(token, CLS)的输出向量来对应最终的文本嵌入。经过预处理的BERT模型已被证明对多类、成对文本分类的迁移学习非常有用。通过一个额外的前馈层和softmax激活函数对模型进行微调，结果表明，这足以为下游任务提供最先进的结果(Devlin et al.， 2018)。为了检验BERT在多标签设置下的情况，我们将最后一层后的激活函数改为sigmoid，这样我们就可以独立地预测每个标签的概率。优化的损失由交叉熵损失调整为二元交叉熵损失。

混合模型

在后续的实验中，我们主要测试了标准BERT和序列生成BERT模型。根据我们的实验结果，我们认为BERT和BERT+SGM在不同的数据集上可能各有优缺点。因此，为了使这些模型能够互相弥补各自的不足，将它们结合起来也许是合理的。我们对一些例子的误差分析表明，在某些情况下，BERT可以预测多余的标签，而BERT+SGM倾向于更加克制，这表明这两种方法可以很好的互补。

支持使用混合方法的另一个论据是，与多标签BERT模型不同，BERT+SGM利用了关于标签底层结构的信息。Wehrmann等人(2018)在他们的工作中提出了HMCN模型，在该模型中，他们建议联合优化局部(层次)和全局分类器，并将它们的最终概率预测合并为加权平均值。

受此启发，我们建议使用一个混合模型，它是一个多标签BERT和序列生成BERT模型的集合。创建混合模型的一个主要挑战是，这两个模型的输出是完全不同的。通常，我们无法访问经典Seq2Seq框架中标签的概率分布。我们建议通过计算解码器在每个阶段产生的概率分布来解决这个问题，然后根据最近的论文(Salvador et al.， 2018)的想法对它们执行元素明智的最大池操作(max-pooling)。我们应该强调，使用这些概率来生成最终的标签集并不一定会得到与原始BERT + SGM模型相同的预测结果。然而，在我们的实验中，我们发现用这种方法得到的概率分布是很有意义的，并且通过适当的概率阈值(对于考虑的数据集大约是0.4-0.45)可以得到与BERT+SGM模型从推理阶段的预测精度相当的预测精度。在得到两种模型的概率分布后，我们可以计算它们的加权平均，得到最终的概率分布向量，如下:

然后使用这个概率向量对概率阈值为0.5的标签进行最终预测。α的值∈[0,1]是一个权衡参数优化在验证集。最后过程提出了算法2：

sliderSun

发布了104 篇原创文章 · 获赞 97 · 访问量 26万+

私信关注