极限多标签学习综述（Extreme Multi-label Learning）

A Survey on Extreme Multi-label Learning

先给地址： https://arxiv.org/abs/2210.03968

博主曾整理过Multi-Label Image Classification（多标签图像分类），但这类任务中所用的数据集往往较小，分类数量并不多。但在更广泛的场景中，标签类别数目可能以百万量级出现，如推荐系统、搜索引擎中等等。如在社交平台上，为用户推荐tag，以自然文本形式出现的tag标签往往是语义广泛的，因此可以被视为是一个多标签学习任务。

任务定义
给定数据X和标签Y，该任务尝试学习一个函数f以映射输入x到y。y的种类通常特别大，通过按照标签y出现的频率进行排序，可以设定阈值 $\tau$ 将标签分为头部标签和尾部标签。

任务挑战
标签数量的众多将导致很多棘手的问题，主要有以下三种

1. Volume。标签数据的增长使输入特征空间和输出标签空间都很大，从而导致可伸缩性问题和存储开销。应对该问题的三个最常见的假设分别是标签独立假设、洛沃兰克假设和层次结构假设（也分别对应着以下三种解决方案）。
1. Quantity。数量是指标签的频率，分布通常是长尾的，即标签的频率分布高度不平衡，这些很少出现的标签却是数据集中的大多数。下图是维基百科和亚马逊的数据集分布，大量的标签呈现出明显的长尾分布。
  
  对尾部标签的泛化是极限多标签学习的核心问题之一。
1. Quality。质量是指注释标签的质量问题。由于标签集和样本量较大，注释每个实例是非常昂贵的，甚至在很多场景中这一部分都是缺失的。

解决方案
应对这三类挑战，也有一些典型的方法被陆续提出，如下图所示。

1. Volume。Model Assumption 可以分为：二值关联方法、基于嵌入的方法和基于树的方法。
1. Quantity。Tail-label Learning 可以分为：鲁棒损失函数、数据增强、知识转移。
1. Quality。Weak Supervision可以分为：零样本学习、缺失样本学习、多实例学习。

在这里插入图片描述

Model Assumption
应对特征空间和输出标签空间大的 Volume问题，Model Assumption 可以分为三个分支：二值关联方法、基于嵌入的方法和基于树的方法。

二进制相关性方法（binary relevance），假设标签是相互独立的，然后为每个标签分别学习一个二进制分类器。实现简单，但二进制相关性的时间和内存复杂性与标签的数量呈线性关系，因此存在较高的计算开销。当然，在这种方法前置一个标签滤波器是一个减少开销的方法。
基于嵌入的方法（embedding-based），利用标签本身的语义性，它们通常假设标签矩阵是低秩的。通常有两种嵌入方法，即线性或非线性投影。线性嵌入以将特征空间和标签空间一起嵌入到某个联合低维空间，通过在该空间计算相似度得到标签预测。在非线性嵌入中，利用图神经网络学习标签之间的非线性关系较为流行。这类将标签也视为特征的做法，也可以缓解尾标签样本数量不足，减少模型的参数数量和训练成本。此类方法最大的缺点在于嵌入过程中信息的丢失。
基于树的方法（tree-based），一般以层次的形式挖掘标签语义，可以大大减少推理时间。通常有两种类型的构树策略：实例树（instance tree-based）和标签树（label tree-based），这取决于在树节点中树分类是按实例或标签进行划分。在实例树中，每个节点由一组训练示例组成，然后逐层分配给子节点，这一点的直觉来源于特征空间的每个区域只包含少量的活动标签。在标签树中，每个节点由一组标签组成，然后将这些标签分配给子节点，一般通过递归的聚类方法来确定分类，直到达到构树的停止条件。基于树的方法的缺点在于，它可能会出现级联效应的影响，即预测误差从顶部传到底部。

在这里插入图片描述

Tail-label Learning
标签的长尾问题是一个重要的统计特征，除了头部特征外，尾部标签在许多现实应用中也十分重要，可以使信息更丰富和有益，如个性化推荐。但是不经常出现的标签（称为尾部标签）比经常出现的标签（称为头部标签）更难预测，特别是传统的方法采取所有标签重要性同等，很容易模型训练在头部标签上表现更好，而对尾部标签的预测性能更差。

为了应对标签长尾的问题，Tail-label Learning 可以分为以下分支：

鲁棒损失函数（Robust Loss Function）。主要通过设计一些损失函数引导模型增加对尾部标签的优先级，从而提高了尾部标签的泛化性能。
数据增强（Data Manipulation）。提高尾部标签性能的另一个简单想法是生成更多的数据，分为扩充数据或增强标签。
知识转移（Knowledge Transfer）。主要通过将知识从一些标签转移到另一些标签，如ECC为每个标签依次训练一个二进制分类器，然后给定每个标签，它使用原始特征和前一个标签分类器的预测来训练分类器。或者DeepXML同时在头部标签和尾部标签上训练两个深度模型，然后将头部标签的语义表示转移到尾部标签模型中。

Weak Supervision
为了解决标注昂贵问题，Weak Supervision被使用最多，主要讨论如何解决缺失标签甚至完全没有标签。缺失标签可以通过观察到的标签进行训练模型并处理缺失的标签。完全没有标签的zero-shot状态可以分为几种形式：

eXtreme Multilabel Learning(XML)。
Generalized Zero-shot Extreme Multi-label Learning (GZXML)。
Few-Shot eXtreme Multi-label Learning(FSXML)。
Extreme Zero-shot eXtreme Multi-label Learning(EZXML)。

未来方向
模型结构：

基于树的结构如何优化切分方式，基于聚类是否是最优？
基于嵌入如何控制过拟合？

长尾问题：

如何划分头部和尾部？目前的划分方法主要通过，设定特定部分为尾部或根据标签频率卡阈值，并没有一个原则的方法。
如何平衡头部和尾部准确率？很多工作展示了两类指标难以同时优化，因此有需要根据特定的XML任务进行权衡。
如何设计尾部标签的损失函数？
如何评估有尾部标签的模型？目前无法清楚地看到头部标签和尾部标签对指标的贡献。

弱监督学习

极端的多实例多标签学习（Extreme multi-instance multi-label learning）。例如，在视频分类中，标签是以视频级别进行标记的，人们可能希望预测视频的每一帧的相关标签。
开放域的极端多标签学习（Open-set extreme multi-label learning）。在许多真实世界的应用程序中，如何应用出现得特别快的新标签，即开放域标签，其除了对已知标签进行分类外，还需要学习开放域标签。
极端的多标签学习与流媒体标签（Extreme multi-label learning with streaming labels）。处理流媒体标签需要对经过训练的模型进行在线更新，目前还没发做的很好。
极端的多标签学习与缺失的标签（Extreme multi-label learning with missing labels）。由于标签空间大，缺少标签的现象很普遍，同时应对尾部标签和看不见的标签非常具挑战性。

极限多标签学习综述（Extreme Multi-label Learning）

A Survey on Extreme Multi-label Learning

猜你喜欢