多标签分类：Adapting RNN Sequence Prediction Model to Multi-label Set Prediction

文章地址：https://arxiv.org/pdf/1904.05829.pdf

作者主页：http://www.ccis.neu.edu/home/kechenqin/

文章数据集：http://www.ccs.neu.edu/home/kechenqin/paper/naacl2019.html

文章标题：Adapting RNN Sequence Prediction Model to Multi-label Set Prediction（将RNN序列预测模型应用于多标签集预测）NNACL2019

写在前面：本文未公开源码，

Abstract

针对文本的多标签分类问题，提出了一种自适应的RNN序列模型。以往的RNN模型只定义了序列的概率，而没有定义集合的概率；试图获得一个集合概率是网络设计的事后想法，包括预先指定标签顺序，或者以特定的方式将序列概率与集合概率联系起来。

我们的公式来自于一个集合概率的原则概念，即集合对应的排列序列的概率之和。我们提供了一个新的训练目标来最大化这个集合概率，以及一个新的预测目标来找到一个测试文档上最可能的集合。这些新目标在理论上很有吸引力，因为它们给了RNN模型发现最佳标签顺序的自由，而最佳标签顺序通常是自然的顺序(但在不同的文档中是不同的)。

我们开发了有效的程序来解决训练和预测中涉及的计算困难。在基准数据集上的实验表明，我们在这项任务上的表现优于最先进的方法。

一、Introduction

PCC（Probabilistic Classifier Chain）和RNN在训练和预测中都严重依赖标签顺序。在多标签数据中，标签是作为集合给出的，不一定是自然顺序。RNN定义序列概率，PCC定义集合概率。已经探索了将集合作为序列排列的各种方法:按字母顺序、按频率排序、基于标签层次结构或根据某些标签排序算法(Liu和Tsang, 2015)。之前的实验结果表明，选择哪种顺序对学习和预测有显著的影响(Vinyals et al.， 2016;Nam et al.， 2017;陈等，2018)。在上面的例子中，开始标记Russia的预测序列，虽然是正确的，但是会使其他预测变得非常困难。

以前的工作已经表明，在不预先指定标签顺序的情况下，可以在多标签数据上训练RNN。RNN具有特殊的训练目标，可以探索不同的标签顺序，并自动收敛到某个顺序(Vinyals et al.， 2016)。在本文中，我们遵循同样的研究思路:我们考虑如何在不指定标签顺序的情况下，将RNN序列模型应用于多标签集预测。具体而言，我们做出以下贡献：

1、我们分析了现有的用于多标签预测的RNN模型，发现现有的训练和预测目标在数学上并不合理，在实践中产生了不理想的结果。
2、我们开发了有效的近似训练和预测方法。基于集合概率的基本概念，我们提出了新的训练和预测目标。我们的新公式避免了现有公式的缺点，并给予RNN模型发现最佳标签顺序的自由。
3、我们为多标签预测任务抓取了两个新的数据集，并将我们的方法应用于它们。我们还在两个现有的多标签数据集上测试了我们的方法。实验结果表明，我们的方法在所有数据集上都优于最先进的方法。

二、Mapping Sequences to Sets

在本节中，我们将描述现有的方法如何将序列映射到集合，方法是使用一致的表示法来记录它们的目标函数。回顾序列设计的RNN，令s = (s1;s2,…,sT)为结果的输入序列，按特定的顺序，顺序通常对数据点很重要。一个RNN模型定义了一个概率分布在所有可能的输出序列给定的输入在Q形式的p。训练RNN模型时，最大限度地提高了地面真值序列的似然性。

三、Adapting RNN Sequence Prediction Model to Multi-label Set Prediction（将RNN序列预测模型应用于多标签集预测）

提出了一种将RNN应用于多标签集预测的新方法——set-RNN。我们欣赏RNN模型结构(Rumelhart et al.， 1988)(直接定义了所有可能序列的概率分布)，并引入了为利用它的集合量身定制的训练和预测目标，同时明确区分了序列概率p(s|x)和集合概率p(y|x)。但是在实践中，我们发现RNN在我们的设置中很少实际生成带有重复标签的序列，并且是否允许重复并没有多大区别。

3.1 How is our new formulation different?

如果只有一些序列排列得到高概率，而其他序列排列得到低概率，那么作为序列概率乘积的集合概率仍然很低。为每个文档,换句话说,如果RNN发现的一个好方法排序相关的标签(如等级)和分配的顺序依次概率质量,模型仍然分配概率低到地面真理标签集和将严重处罚。因此，该模型在发现和关注某些自然标签顺序方面几乎没有自由。相比之下，我们提出的训练目标是将乘法运算替换为求和运算，只要为每个文档找到一个合理的标签排列就足够了。值得注意的是，不同的单据可以有不同的标签订单;因此，我们提出的训练目标使RNN模型在标签顺序上有更大的自由度。(Vinyals et al.， 2016)中提出的其他两个目标(2)和(4)没有(3)那么严格，但是由于自我强化问题，它们必须与(3)协同工作。我们提出的训练目标有一个自然的概率解释，并且没有自我强化的问题。因此，它可以作为一个独立的培训目标。同样，利用Jensen不等式，我们可以证明objective(3)是对数似然的一个下界的最大值，而objective(5)是对数似然的一个直接最大值。
在这里插入图片描述

3.2 Training by Maximizing Set Probability

使用提出的目标(5)训练RNN模型需要对集合y的序列(排列)概率求和，其中jyj是集合的基数，因此准确地评估这个目标是很难的。我们可以通过只考虑RNN模型产生的最高K个概率序列来近似这个总和。我们引入一个变种的波束搜索设置宽度K和搜索候选人每一步只局限于标签设置(参见算法1 = 1)。这个近似推理过程进行多次在每一批训练步骤之前,为了找到最高概率为所有培训实例发生在批处理序列。算法2总结了整个训练过程。
在这里插入图片描述

3.3 Predicting the Most Probable Set

首先，我们运行标准的RNN集束搜索(算法1的ALL= 0)来生成一个最高概率序列列表。然后，我们考虑与每个标签序列相关联的标签集。对于每个集合，我们使用与模型训练中使用的相同的近似求和过程(算法1的ALL = 1)来评估其概率:我们运行修改后的波束搜索，找到与该集合相关的前几个最高概率序列，并对它们的概率求和。在我们评估的这些集合中，我们选择概率最高的集合作为预测。整体预测过程总结在算法3中。我们将在案例研究中说明，最可能集可能与最可能序列不对应;这些当然是我们的方法有优势的情况。

我们的方法和竞争对手的技术状态(vinyars - rnns)都比vanila - rnn慢K倍，这是由于处理每个数据点的K个排列所花费的时间。我们提出的方法与Vinyals-RNN方法的速度差不多，除了Vinyals-RNN-uniform稍微快一点(快1.5倍)，因为它的epoch不运行额外的前向传递。
在这里插入图片描述

四、Results and Analysis

我们在4个真实世界数据集RCV1-v2、Slashdot、TheGuardian和Arxiv学术论文数据集(AAPD)上测试了我们提出的set-RNN方法(Yang et al.， 2018)。我们使用公共的RCV1-v2版本，并随机抽样50,000个文档。我们从Slashdot和《卫报》的网站上抓取文件，把官方的编辑标签当作事实。我们还为每个文档收集用户标记列表，并将它们视为附加特性。对于AAPD数据集，我们遵循与in相同的train/test split (Yang et al.， 2018)。表2包含这四个数据集的统计信息。
在这里插入图片描述
为了处理文档，我们过滤掉停顿和标点。每一份文件都被删减，卫报和AAPD最多500字，Slashdot和RCV1-v2最多120字。如果文档包含的单词少于最大数量，则使用零填充。数字和词汇表外的单词被替换为特殊的标记。单词、用户标记和标签都使用WORD2VEC编码为300维向量(Mikolov et al.， 2013)。

我们注意使用TENSORFLOW-1.4.0实现RNNs (Abadi et al.， 2016)。RNNs的动态函数被选择为2层的门控递归单元(GRU)，在解码器中最多为50个单元。GRU单元的规模是300。我们将fropout设置为0.3，并使用Adam optimizer (Kingma and Ba, 2014)对模型进行训练，学习率为0:0005。在训练和预测阶段，beam size设置为12。我们采用label-F1(标签上的平均F1)和instance-F1(实例上的平均F1)作为主要的评价指标，定义如下:
在这里插入图片描述
我们将我们的方法与以下方法进行比较：

1、Binary Relevance (BR)
2、Binary Relevance with support inference (BR-support)
3、Probabilistic Classifier Chain (PCC)
4、Sequence to Sequence RNN (seq2seq-RNN)
5、Vinyals-RNN-uniform, Vinyals-RNNsample, and Vinyals-RNN-max
6、Sequence Generation Model (SGM)

在这里插入图片描述

五、Case Analysis

案例分析（略）

六、Conclusion

在这项工作中，我们提出了一个自适应的RNN序列模型，以解决文本的多标签分类问题。RNN只直接定义序列的概率，而不定义集合的概率。与以往的方法不同，我们的公式是由集合概率的基本概念推导而来的。我们将集合概率定义为所有相应序列排列概率的和。我们推导出一个新的训练目标，最大限度地提高集合的概率，以及一个新的预测目标，找出最可能的集合。这些新的目标在理论上比现有的目标更有吸引力，因为它们给了RNN模型更多的自由来自动发现和利用最佳标签指令。

浩比浩比

发布了199 篇原创文章 · 获赞 268 · 访问量 8万+

私信关注