多标签分类:Adapting RNN Sequence Prediction Model to Multi-label Set Prediction

文章地址:https://arxiv.org/pdf/1904.05829.pdf

作者主页:http://www.ccis.neu.edu/home/kechenqin/

文章数据集:http://www.ccs.neu.edu/home/kechenqin/paper/naacl2019.html

文章标题:Adapting RNN Sequence Prediction Model to Multi-label Set Prediction(将RNN序列预测模型应用于多标签集预测)NNACL2019

写在前面:本文未公开源码,

Abstract

针对文本的多标签分类问题,提出了一种自适应的RNN序列模型。以往的RNN模型只定义了序列的概率,而没有定义集合的概率;试图获得一个集合概率是网络设计的事后想法,包括预先指定标签顺序,或者以特定的方式将序列概率与集合概率联系起来。

我们的公式来自于一个集合概率的原则概念,即集合对应的排列序列的概率之和。我们提供了一个新的训练目标来最大化这个集合概率,以及一个新的预测目标来找到一个测试文档上最可能的集合。这些新目标在理论上很有吸引力,因为它们给了RNN模型发现最佳标签顺序的自由,而最佳标签顺序通常是自然的顺序(但在不同的文档中是不同的)。

我们开发了有效的程序来解决训练和预测中涉及的计算困难。在基准数据集上的实验表明,我们在这项任务上的表现优于最先进的方法。

一、Introduction

PCC(Probabilistic Classifier Chain)和RNN在训练和预测中都严重依赖标签顺序。在多标签数据中,标签是作为集合给出的,不一定是自然顺序。RNN定义序列概率,PCC定义集合概率。已经探索了将集合作为序列排列的各种方法:按字母顺序、按频率排序、基于标签层次结构或根据某些标签排序算法(Liu和Tsang, 2015)。之前的实验结果表明,选择哪种顺序对学习和预测有显著的影响(Vinyals et al., 2016;Nam et al., 2017;陈等,2018)。在上面的例子中,开始标记Russia的预测序列,虽然是正确的,但是会使其他预测变得非常困难。

以前的工作已经表明,在不预先指定标签顺序的情况下,可以在多标签数据上训练RNN。RNN具有特殊的训练目标,可以探索不同的标签顺序,并自动收敛到某个顺序(Vinyals et al., 2016)。在本文中,我们遵循同样的研究思路:我们考虑如何在不指定标签顺序的情况下,将RNN序列模型应用于多标签集预测。具体而言,我们做出以下贡献:

  • 1、我们分析了现有的用于多标签预测的RNN模型,发现现有的训练和预测目标在数学上并不合理,在实践中产生了不理想的结果。

  • 2、我们开发了有效的近似训练和预测方法。基于集合概率的基本概念,我们提出了新的训练和预测目标。我们的新公式避免了现有公式的缺点,并给予RNN模型发现最佳标签顺序的自由。

  • 3、我们为多标签预测任务抓取了两个新的数据集,并将我们的方法应用于它们。我们还在两个现有的多标签数据集上测试了我们的方法。实验结果表明,我们的方法在所有数据集上都优于最先进的方法。

二、Mapping Sequences to Sets

在本节中,我们将描述现有的方法如何将序列映射到集合,方法是使用一致的表示法来记录它们的目标函数。回顾序列设计的RNN,令s = (s1;s2,…,sT)为结果的输入序列,按特定的顺序,顺序通常对数据点很重要。一个RNN模型定义了一个概率分布在所有可能的输出序列给定的输入在Q形式的p。训练RNN模型时,最大限度地提高了地面真值序列的似然性。

三、Adapting RNN Sequence Prediction Model to Multi-label Set Prediction(将RNN序列预测模型应用于多标签集预测)

提出了一种将RNN应用于多标签集预测的新方法——set-RNN。我们欣赏RNN模型结构(Rumelhart et al., 1988)(直接定义了所有可能序列的概率分布),并引入了为利用它的集合量身定制的训练和预测目标,同时明确区分了序列概率p(s|x)和集合概率p(y|x)。但是在实践中,我们发现RNN在我们的设置中很少实际生成带有重复标签的序列,并且是否允许重复并没有多大区别。

3.1 How is our new formulation different?

如果只有一些序列排列得到高概率,而其他序列排列得到低概率,那么作为序列概率乘积的集合概率仍然很低。为每个文档,换句话说,如果RNN发现的一个好方法排序相关的标签(如等级)和分配的顺序依次概率质量,模型仍然分配概率低到地面真理标签集和将严重处罚。因此,该模型在发现和关注某些自然标签顺序方面几乎没有自由。相比之下,我们提出的训练目标是将乘法运算替换为求和运算,只要为每个文档找到一个合理的标签排列就足够了。值得注意的是,不同的单据可以有不同的标签订单;因此,我们提出的训练目标使RNN模型在标签顺序上有更大的自由度。(Vinyals et al., 2016)中提出的其他两个目标(2)和(4)没有(3)那么严格,但是由于自我强化问题,它们必须与(3)协同工作。我们提出的训练目标有一个自然的概率解释,并且没有自我强化的问题。因此,它可以作为一个独立的培训目标。同样,利用Jensen不等式,我们可以证明objective(3)是对数似然的一个下界的最大值,而objective(5)是对数似然的一个直接最大值。
在这里插入图片描述

3.2 Training by Maximizing Set Probability

使用提出的目标(5)训练RNN模型需要对集合y的序列(排列)概率求和,其中jyj是集合的基数,因此准确地评估这个目标是很难的。我们可以通过只考虑RNN模型产生的最高K个概率序列来近似这个总和。我们引入一个变种的波束搜索设置宽度K和搜索候选人每一步只局限于标签设置(参见算法1 = 1)。这个近似推理过程进行多次在每一批训练步骤之前,为了找到最高概率为所有培训实例发生在批处理序列。算法2总结了整个训练过程。
在这里插入图片描述

3.3 Predicting the Most Probable Set

首先,我们运行标准的RNN集束搜索(算法1的ALL= 0)来生成一个最高概率序列列表。然后,我们考虑与每个标签序列相关联的标签集。对于每个集合,我们使用与模型训练中使用的相同的近似求和过程(算法1的ALL = 1)来评估其概率:我们运行修改后的波束搜索,找到与该集合相关的前几个最高概率序列,并对它们的概率求和。在我们评估的这些集合中,我们选择概率最高的集合作为预测。整体预测过程总结在算法3中。我们将在案例研究中说明,最可能集可能与最可能序列不对应;这些当然是我们的方法有优势的情况。

我们的方法和竞争对手的技术状态(vinyars - rnns)都比vanila - rnn慢K倍,这是由于处理每个数据点的K个排列所花费的时间。我们提出的方法与Vinyals-RNN方法的速度差不多,除了Vinyals-RNN-uniform稍微快一点(快1.5倍),因为它的epoch不运行额外的前向传递。
在这里插入图片描述

四、Results and Analysis

我们在4个真实世界数据集RCV1-v2、Slashdot、TheGuardian和Arxiv学术论文数据集(AAPD)上测试了我们提出的set-RNN方法(Yang et al., 2018)。我们使用公共的RCV1-v2版本,并随机抽样50,000个文档。我们从Slashdot和《卫报》的网站上抓取文件,把官方的编辑标签当作事实。我们还为每个文档收集用户标记列表,并将它们视为附加特性。对于AAPD数据集,我们遵循与in相同的train/test split (Yang et al., 2018)。表2包含这四个数据集的统计信息。
在这里插入图片描述
为了处理文档,我们过滤掉停顿和标点。每一份文件都被删减,卫报和AAPD最多500字,Slashdot和RCV1-v2最多120字。如果文档包含的单词少于最大数量,则使用零填充。数字和词汇表外的单词被替换为特殊的标记。单词、用户标记和标签都使用WORD2VEC编码为300维向量(Mikolov et al., 2013)。

我们注意使用TENSORFLOW-1.4.0实现RNNs (Abadi et al., 2016)。RNNs的动态函数被选择为2层的门控递归单元(GRU),在解码器中最多为50个单元。GRU单元的规模是300。我们将fropout设置为0.3,并使用Adam optimizer (Kingma and Ba, 2014)对模型进行训练,学习率为0:0005。在训练和预测阶段,beam size设置为12。我们采用label-F1(标签上的平均F1)和instance-F1(实例上的平均F1)作为主要的评价指标,定义如下:
在这里插入图片描述
我们将我们的方法与以下方法进行比较:

  • 1、Binary Relevance (BR)
  • 2、Binary Relevance with support inference (BR-support)
  • 3、Probabilistic Classifier Chain (PCC)
  • 4、Sequence to Sequence RNN (seq2seq-RNN)
  • 5、Vinyals-RNN-uniform, Vinyals-RNNsample, and Vinyals-RNN-max
  • 6、Sequence Generation Model (SGM)

在这里插入图片描述

五、Case Analysis

案例分析(略)

六、Conclusion

在这项工作中,我们提出了一个自适应的RNN序列模型,以解决文本的多标签分类问题。RNN只直接定义序列的概率,而不定义集合的概率。与以往的方法不同,我们的公式是由集合概率的基本概念推导而来的。我们将集合概率定义为所有相应序列排列概率的和。我们推导出一个新的训练目标,最大限度地提高集合的概率,以及一个新的预测目标,找出最可能的集合。这些新的目标在理论上比现有的目标更有吸引力,因为它们给了RNN模型更多的自由来自动发现和利用最佳标签指令。

发布了199 篇原创文章 · 获赞 268 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/MaybeForever/article/details/102847710