1 概述

1.1 题目

2022：子空间模糊距离多示例学习 (Robust bag classification approach for multi-instance learning via subspace fuzzy clustering)

1.2 摘要

多示例学习 (Multi-instance learning, MIL) 允许预测算法使用复杂的数据表示。MIL中的数据被组织为实例构成的有标记包，实例的标签在训练阶段不可用。复杂包表示的处理和分类导致复杂的假设空间。此外，关键实例的鉴别很重要，因为这些实例触发了正包的标签，在可解释性和包分类上扮演着很重要的角色。

最近的MIL算法在处理假设空间复杂性方面并不健壮。此外，现有的实例选择算法基于考虑实例与包标签的关系的明确假设。然而，这些假设可能支持某一个包却可能无法应用于整个数据集。为了处理假设空间的复杂性和不涉及先验假设的健壮性实例选择，本文提出了一个用于健壮性实例选择的模糊子空间聚类方法和用于Fisher向量 (FV) 编码的基于集成的变体，称为FCBE-miFV：

使用模糊聚类方法来计算实例选择概率，从包中选择关键是了，转换输入包为FV；
使用基于stacking的集成方法来对生成的包编码分类，以提升包级别分类性能。

1.3 引用

@article{
    
    Waqas:2022:119113,
author		=	{
    
    Muhammad Waqas and Muhammad Atif Tahir and Salman Ahmed Khan},
title		=	{
    
    Robust bag classification approach for multi-instance learning via subspace fuzzy clustering},
journal		=	{
    
    Expert Systems with Applications},
pages		=	{
    
    119113},
year		=	{
    
    2022},
doi			=	{
    
    10.1016/j.eswa.2022.119113}
}

2 算法

FCBE-miFV包含三个阶段：

模糊实例选择：提出随机子空间模糊聚类来指定实例的选择概率。随后，基于实例概率，从每个包中选择出一个或多个实例，所选择的实例将组成新的包。该过程如图2 (a)；
编码阶段：新组成的包被转换为FV编码，如图2 (b)；
集成阶段：基于FV编码训练几个基学习器，它们的堆叠输出将用于包分类，如图2 ©。

图2：算法流程图： (a) 模糊聚类实例选择技术；(b) FV编码生成过程；(c) 集成过程

2.1 问题制定

大多数MIL算法聚焦于分类问题，然而聚类、排序，以及回归也是MIL的重要应用。本文立足于包级别的二分类问题，其中包是无标记实例的集合，且被分配了正或者负的二元标签。如果包包含一个或者多个正实例则标记为正，而在训练阶段，实例的标签是未知的。

给定数据集 $\mathcal{B}=\{ (Bag_1,\mathcal{Y}_1), (Bag_2,\mathcal{Y}_2),(Bag_3,\mathcal{Y}_3)\dots(Bag_n,\mathcal{Y}_n) \}$ ，其中 $Bag_i=\{\boldsymbol{x}_{i,1},\boldsymbol{x}_{i,2},\boldsymbol{x}_{i,3}\dots\boldsymbol{x}_{i,m_i}\}$ 。包中的实例有一个假设的标签 $Y_i = \{ y_{1,y},y_{2,i},y_{3,i},\dots y_{m,i} \} \in \{ +1,-1 \}$ 。包标签计算为：
$\tag{1} \mathcal{Y}_i= \left\{ \begin{array}{ll} +1\quad if\exist y_{i,j}\in Y_i=+1\\ -1\quad if\forall y_{i,j}\in Y_i=+1\\ \end{array} \right.$

2.2 模糊子空间实例选择

模糊C均值 (Fuzzy c-means, FCM) 用于从随机选择的特征子空间中选择实例。首选子空间聚类，是因为实例级标签的不可用和维数灾难，很难确定实例的相关特征。此外，它将搜索本地化并在多个小数据视图中发现数据模式。子空间聚类为数据集中的每个实例分配一个分数，并有助于突出包中可能重要的实例。实例分数计算和实例选择过程的步骤如图2 (a)。

首先，随机选择特征的子集 $S_f$ 作为子空间。如果 $N_f$ 表示所有特征的集合，则 $S_f\subset N_f$ 。训练包中的所有实例将映射到 $S_f$ ，FCM将作用于 $S_f$ 中的实例。FCM划分实例为 $\mathcal{K}$ 个交叠的簇，并给每一个实例分配与每一个簇的关系的程度 $\mu_{i,j}^f$ ，其中 $\mu_{i,j}^f$ 表示实例与簇 $\mathcal{K}_f$ 的关系的程度，以及 $f=\{ 1,2,3,\dots,\mathcal{K} \}$ 。在每一个簇 $\mathcal{K}_f$ 中，正实例的比例 $\xi^f$ 计算为：
$\tag{2} \xi^f=\frac{\sum_{i=1}^n\sum_{j=1}^{m_i}\eta(\boldsymbol{x}_{i,j},f)}{\sum_{i=1}^n\sum_{j=1}^{m_i}\mu_{ij}^f},$ 其中 $\tag{3} \eta(\boldsymbol{x}_{ij},f)= \left\{ \begin{array}{ll} \mu_{ij}^f,&if\mathcal{Y}_i=+1\\ 0,&Otherwise. \end{array} \right.$ 随后，实例的正分 $\mathcal{S}_{i,j}$ 计算为：
$\tag{4} \mathcal{S}_{i,j}=\forall f\sum \mu_{i,j}^f\times\xi^f.$ 每一个随机子空间都可以计算一个正分， $\mathcal{N}$ 个子空间的平均正分计算为：
$\tag{5} \mathcal{FS}_{i,j}=\frac{\sum_{t=1}^\mathcal{N}\mathcal{S}^t_{i,j}}{\mathcal{N}}.$ 最终，实例选择概率计算为：
$\tag{6} \mathcal{P}_{i,j}=\frac{e\frac{\mathcal{FS}_{i,j}}{\tau}}{\sum_{t=1}^{|Bag_i|}e\frac{\mathcal{FS}_{i,t}}{\tau}}$ $\mathcal{N,K,T}$ 均为超参数。

扫描二维码关注公众号，回复： 14979492 查看本文章

基于实例选择概率，将获取新的训练集 $\mathcal{NB}=\{B_1,B_2,\dots,B_n\}$ ，其中 $B_i$ 是实例选择后的包。实例选择概率在正包中表示最可能的正实例，在负包中表示出最难分类的一些实例。

随后，包 $B_i$ 将被编码为FV，并生成训练集 $\mathcal{FV}^{train}=\left\{ \left( \boldsymbol{fv}_\lambda^{B_1}, \mathcal{Y}_1 \right), \left( \boldsymbol{fv}_\lambda^{B_2}, \mathcal{Y}_2 \right), \dots,\left( \boldsymbol{fv}_\lambda^{B_n}, \mathcal{Y}_n \right) \right\}$ ，其中 $\boldsymbol{fv}_\lambda^{B_i}$ 是 $B_i$ 的编码。生成的训练将用于集成设计中的基分类器。此外，实例选择、 $\mathcal{NB}$ 的构建，以及基学习器的训练将重复几次。最后，基分类器的堆叠预测将用于包分类。

2.3 包编码

参照miFV。

2.4 集成设计

基于堆叠的集成方法用于最终分类，其中异构基学习器的堆叠用于训练元学习器。基学习器在FV编码上迭代训练，它们生成的结果将堆叠。堆叠输出将作为元学习器的输入。所提出的集成设计允许元学习器自主决定如何组合贡献成员的输出，这也是FCBE-miFV的核心特征。显然已有的MIL方法不具备高AUC到分类准确率的转换。这表明得分函数适合于分类。然后，所选择的决策阈值不是优化的，FCBE-miFV中的元学习器将使用基学习器的堆叠预测来学习决策阈值，如图2 ©。

普回归核判别分析 (Spectral regression kernel discriminant analysis, SRKDA) 和线性支持向量机 (SVM) 作为基学习器，记为 $HB^{SVM}$ 和 $HB^{SRKDA}$ 。

在训练过程，基分类器将迭代 $C I$ 次，在第 $c$ 次迭代中，针对于 $HB^{SVM}$ 和 $HB^{SRKDA}$ 的训练预测 $SP_c^{train}$ 将堆叠。 $C I$ 迭代之后，元学习器 $H$ 基于堆叠预测来训练。在测试阶段，所有迭代的基分类器用于生成堆叠预测，而一个元学习器将获取最终的输出。

论文阅读 (80)：Robust Bag Classification Approach for Multi-instance Learning Via Subspace Fuzzy Clusteri

文章目录