一种用于半监督文本分类的渐进类语义匹配方法

本文来自NAACL 2022，介绍一种半监督文本分类方法，利用CSR（Class Semantic Representation)类别语义表示，也就类似label embedding的东西，对输入text进行匹配，生成伪标签，进行半监督训练，同时此流程中CSR会不断更新，提高伪标签准确效果。

简单总结：bert训练分类器，使用bert进行encoder得到CSR也就是我们常说的label embedding，最后进行语义匹配生成伪标签进行迭代更新。本文的作者来自澳大利亚的几位同学。

论文地址：Progressive Class Semantic Matching for Semi-supervised Text Classification | Papers With Code

code 地址：HeimingX/PCM: Official implementation of PCM “Progressive Class Semantic Matching for Semi-supervised Text Classification” (github.com) 目前作者还没有开源

一、摘要

半监督学习是降低文本分类注释成本的有效方法。结合预训练语言模型（PLM），例如BERT，最近的半监督学习方法实现了令人印象深刻的性能。在这项工作中，我们进一步研究了半监督学习和预训练语言模型之间的关系。与现有的仅将PLM用于模型参数初始化的方法不同，我们探索了PLM内部固有的主题匹配能力，以构建更强大的半监督学习方法。

具体而言，我们提出了一种联合半监督学习过程，该过程可以逐步为输入文本和类语义表示（CSR）构建标准的K-way分类器和匹配网络。CSR将根据给定的标记句子进行初始化，并在培训过程中逐步更新。通过大量的实验，我们表明，我们的方法不仅可以给基线带来显著的改进，而且总体上更稳定，在半监督文本分类中达到了最先进的性能。

二、介绍

在本文中，我们进一步探讨了PLM对SSL的使用。具体而言，我们发现一些PLM，例如BERT，由于其预训练借口任务，在句子和类相关单词之间具有连贯匹配能力（Devlin等人，2019），我们开发了一个联合训练过程，以逐步更新三个组件，即执行标准K-way分类的分类器、表示每个类别语义的类语义表示（CSR）和匹配分类器，该匹配分类器将输入语义与CSR相匹配。这三个组件可以在训练过程中相互帮助，即，通过与匹配分类器联合生成伪标签，K-way分类器将接收更准确的伪标签；匹配分类器也将在K-way分类器的引导下升级其匹配能力。随着K-way分类器和匹配3003的改进，CSR将变得更加准确和全面。

三、相关工作

3.1 半监督学习

半监督学习是机器学习中的一个长期研究课题。现有方法采用不同的方式利用未标记样本，例如，“传导”模型（Joachims，2003；Gammerman等人，2013）、多视图风格方法（Blum和Mitchell，1998；Zhou和Li，2005）和基于生成模型的方法（Kingma等人，2014；Springenberg，2016）。随着深度神经网络的复兴，基于一致性正则化的深度SSL方法（Laine和Aila，2017；Tarvainen和Valpola，2017年；Miyato等人，2018年）在各种任务中取得了令人印象深刻的性能，我们的工作在很大程度上建立在这类方法的基础上。这些方法的关键思想是使模型在输入空间中每个样本的邻域中保持一致。具体而言，∏模型（Laine和Aila，2017）、UDA（Xie等人，2019b）和FixMatch（Sohn等人，2020）直接向输入数据添加各种扰动，Mean教师（Tarvainen和Valpola，2017年）使用教师模型模拟样本扰动，虚拟对抗训练（Miyato等人，2018年）巧妙地构建了对抗样本。最近，混合（Zhang et al.，2018）方法提出了另一种一致性约束，要求模型的输入和输出满足相同的线性关系。基于这一技术，许多最先进的方法被发布，例如ICT（Verma等人，2019b）、MixMatch（Berth-elot等人，2019 b）和ReMixMath

3.2 半监督文本分类

半监督学习在文本分类领域得到了广泛关注。许多最近的半监督文本分类方法关注如何将现有的SSL方法应用于句子输入。（Miyato等人，2017）将扰动应用于单词嵌入，以构建对抗性和虚拟对抗性训练。（Clark等人，2018）设计了具有输入限制视图的辅助预测模块，以鼓励视图之间的一致性。随着PLM的发展，（Jo和Cinarel，2019）在两组不同初始化的分类器之间进行了自我训练，一组带有预训练的单词嵌入，另一组带有随机值。（Xie等人，2019b）和（Chen等人，2020）都使用预训练的BERT来初始化句子特征提取器，其中前者在原始句子与其反译生成的句子之间进行一致性正则化，后者进一步将流形混合（Verma等人，2019 a）引入到文本分类中。尽管这些方法可能会取得良好的性能，但我们认为它们尚未充分探索PLM中的固有知识。我们的工作朝着这个方向进一步。

四、方法

构建一个可以联合更新三个组件的过程：

（1）标准K-way分类器

（2）将文本与类语义表示相匹配的匹配分类器

（3）类语义表示（CSR）本身。每个组件的更新将帮助其他组件，从而可以迭代地引导分类性能。

我们称我们的方法为渐进类语义匹配（PCM）。

在这里插入图片描述

五、实验

实验设置

与MixText一致实验设置，在四个数据集上评PCM的效果：AG News， DBpedia (Lehmann et al., 2015),，Yahoo! Answers (Chang et al., 2008), and IMDB (Maas et al., 2011) 。同时我们使用互译方法来进行数据增强，使用了fairseq工具包。

学习率使用5e-6用于bert encoder，5e-4用于分类器，

baseline设置：

BERT-FT 直接bert 进行fine-tune
UDA 无监督数据增强 (Xie et al., 2019b)
MixText (Chen et al., 2020)

在这里插入图片描述

消融实验

在PCM中使用两个分类器的重要性。
如果使用双分类器双损失是成功的关键？
K-way分类器和匹配分类器的预测质量
更新CSR的影响

六、我的思考

本文看下来觉得不太值当，觉得使用的方法很简单，使用bert 【cls】text 【sep】label【sep】的结果，先进行encoder，然后学习fc分类器和匹配分类器，使用匹配分类器来进行生成伪标签进行迭代更新。

作者设置的对比实验也不太合理，仅仅与之前mixtext进行比较，并不能证明该工作具体有效的部分，不过也是一种生成伪标签的方法吧，以后比赛trick可以用这类方法进行改进来生成伪标签迭代来提点。