1 概述
1.1 题目
1.2 摘要
多示例学习 (Multi-instance learning, MIL) 允许预测算法使用复杂的数据表示。MIL中的数据被组织为实例构成的有标记包,实例的标签在训练阶段不可用。复杂包表示的处理和分类导致复杂的假设空间。此外,关键实例的鉴别很重要,因为这些实例触发了正包的标签,在可解释性和包分类上扮演着很重要的角色。
最近的MIL算法在处理假设空间复杂性方面并不健壮。此外,现有的实例选择算法基于考虑实例与包标签的关系的明确假设。然而,这些假设可能支持某一个包却可能无法应用于整个数据集。为了处理假设空间的复杂性和不涉及先验假设的健壮性实例选择,本文提出了一个用于健壮性实例选择的模糊子空间聚类方法和用于Fisher向量 (FV) 编码的基于集成的变体,称为FCBE-miFV:
- 使用模糊聚类方法来计算实例选择概率,从包中选择关键是了,转换输入包为FV;
- 使用基于stacking的集成方法来对生成的包编码分类,以提升包级别分类性能。
1.3 引用
@article{
Waqas:2022:119113,
author = {
Muhammad Waqas and Muhammad Atif Tahir and Salman Ahmed Khan},
title = {
Robust bag classification approach for multi-instance learning via subspace fuzzy clustering},
journal = {
Expert Systems with Applications},
pages = {
119113},
year = {
2022},
doi = {
10.1016/j.eswa.2022.119113}
}
2 算法
FCBE-miFV包含三个阶段:
- 模糊实例选择:提出随机子空间模糊聚类来指定实例的选择概率。随后,基于实例概率,从每个包中选择出一个或多个实例,所选择的实例将组成新的包。该过程如图2 (a);
- 编码阶段:新组成的包被转换为FV编码,如图2 (b);
- 集成阶段:基于FV编码训练几个基学习器,它们的堆叠输出将用于包分类,如图2 ©。
2.1 问题制定
大多数MIL算法聚焦于分类问题,然而聚类、排序,以及回归也是MIL的重要应用。本文立足于包级别的二分类问题,其中包是无标记实例的集合,且被分配了正或者负的二元标签。如果包包含一个或者多个正实例则标记为正,而在训练阶段,实例的标签是未知的。
给定数据集 B = { ( B a g 1 , Y 1 ) , ( B a g 2 , Y 2 ) , ( B a g 3 , Y 3 ) … ( B a g n , Y n ) } \mathcal{B}=\{ (Bag_1,\mathcal{Y}_1), (Bag_2,\mathcal{Y}_2),(Bag_3,\mathcal{Y}_3)\dots(Bag_n,\mathcal{Y}_n) \} B={
(Bag1,Y1),(Bag2,Y2),(Bag3,Y3)…(Bagn,Yn)},其中 B a g i = { x i , 1 , x i , 2 , x i , 3 … x i , m i } Bag_i=\{\boldsymbol{x}_{i,1},\boldsymbol{x}_{i,2},\boldsymbol{x}_{i,3}\dots\boldsymbol{x}_{i,m_i}\} Bagi={
xi,1,xi,2,xi,3…xi,mi}。包中的实例有一个假设的标签 Y i = { y 1 , y , y 2 , i , y 3 , i , … y m , i } ∈ { + 1 , − 1 } Y_i = \{ y_{1,y},y_{2,i},y_{3,i},\dots y_{m,i} \} \in \{ +1,-1 \} Yi={
y1,y,y2,i,y3,i,…ym,i}∈{
+1,−1}。包标签计算为:
Y i = { + 1 i f ∃ y i , j ∈ Y i = + 1 − 1 i f ∀ y i , j ∈ Y i = + 1 (1) \tag{1} \mathcal{Y}_i= \left\{ \begin{array}{ll} +1\quad if\exist y_{i,j}\in Y_i=+1\\ -1\quad if\forall y_{i,j}\in Y_i=+1\\ \end{array} \right. Yi={
+1if∃yi,j∈Yi=+1−1if∀yi,j∈Yi=+1(1)
2.2 模糊子空间实例选择
模糊C均值 (Fuzzy c-means, FCM) 用于从随机选择的特征子空间中选择实例。首选子空间聚类,是因为实例级标签的不可用和维数灾难,很难确定实例的相关特征。此外,它将搜索本地化并在多个小数据视图中发现数据模式。子空间聚类为数据集中的每个实例分配一个分数,并有助于突出包中可能重要的实例。实例分数计算和实例选择过程的步骤如图2 (a)。
首先,随机选择特征的子集 S f S_f Sf作为子空间。如果 N f N_f Nf表示所有特征的集合,则 S f ⊂ N f S_f\subset N_f Sf⊂Nf。训练包中的所有实例将映射到 S f S_f Sf,FCM将作用于 S f S_f Sf中的实例。FCM划分实例为 K \mathcal{K} K个交叠的簇,并给每一个实例分配与每一个簇的关系的程度 μ i , j f \mu_{i,j}^f μi,jf,其中 μ i , j f \mu_{i,j}^f μi,jf表示实例与簇 K f \mathcal{K}_f Kf的关系的程度,以及 f = { 1 , 2 , 3 , … , K } f=\{ 1,2,3,\dots,\mathcal{K} \} f={
1,2,3,…,K}。在每一个簇 K f \mathcal{K}_f Kf中,正实例的比例 ξ f \xi^f ξf计算为:
ξ f = ∑ i = 1 n ∑ j = 1 m i η ( x i , j , f ) ∑ i = 1 n ∑ j = 1 m i μ i j f , (2) \tag{2} \xi^f=\frac{\sum_{i=1}^n\sum_{j=1}^{m_i}\eta(\boldsymbol{x}_{i,j},f)}{\sum_{i=1}^n\sum_{j=1}^{m_i}\mu_{ij}^f}, ξf=∑i=1n∑j=1miμijf∑i=1n∑j=1miη(xi,j,f),(2)其中 η ( x i j , f ) = { μ i j f , i f Y i = + 1 0 , O t h e r w i s e . (3) \tag{3} \eta(\boldsymbol{x}_{ij},f)= \left\{ \begin{array}{ll} \mu_{ij}^f,&if\mathcal{Y}_i=+1\\ 0,&Otherwise. \end{array} \right. η(xij,f)={
μijf,0,ifYi=+1Otherwise.(3)随后,实例的正分 S i , j \mathcal{S}_{i,j} Si,j计算为:
S i , j = ∀ f ∑ μ i , j f × ξ f . (4) \tag{4} \mathcal{S}_{i,j}=\forall f\sum \mu_{i,j}^f\times\xi^f. Si,j=∀f∑μi,jf×ξf.(4)每一个随机子空间都可以计算一个正分, N \mathcal{N} N个子空间的平均正分计算为:
F S i , j = ∑ t = 1 N S i , j t N . (5) \tag{5} \mathcal{FS}_{i,j}=\frac{\sum_{t=1}^\mathcal{N}\mathcal{S}^t_{i,j}}{\mathcal{N}}. FSi,j=N∑t=1NSi,jt.(5)最终,实例选择概率计算为:
P i , j = e F S i , j τ ∑ t = 1 ∣ B a g i ∣ e F S i , t τ (6) \tag{6} \mathcal{P}_{i,j}=\frac{e\frac{\mathcal{FS}_{i,j}}{\tau}}{\sum_{t=1}^{|Bag_i|}e\frac{\mathcal{FS}_{i,t}}{\tau}} Pi,j=∑t=1∣Bagi∣eτFSi,teτFSi,j(6) N , K , T \mathcal{N,K,T} N,K,T均为超参数。
基于实例选择概率,将获取新的训练集 N B = { B 1 , B 2 , … , B n } \mathcal{NB}=\{B_1,B_2,\dots,B_n\} NB={ B1,B2,…,Bn},其中 B i B_i Bi是实例选择后的包。实例选择概率在正包中表示最可能的正实例,在负包中表示出最难分类的一些实例。
随后,包 B i B_i Bi将被编码为FV,并生成训练集 F V t r a i n = { ( f v λ B 1 , Y 1 ) , ( f v λ B 2 , Y 2 ) , … , ( f v λ B n , Y n ) } \mathcal{FV}^{train}=\left\{ \left( \boldsymbol{fv}_\lambda^{B_1}, \mathcal{Y}_1 \right), \left( \boldsymbol{fv}_\lambda^{B_2}, \mathcal{Y}_2 \right), \dots,\left( \boldsymbol{fv}_\lambda^{B_n}, \mathcal{Y}_n \right) \right\} FVtrain={ (fvλB1,Y1),(fvλB2,Y2),…,(fvλBn,Yn)},其中 f v λ B i \boldsymbol{fv}_\lambda^{B_i} fvλBi是 B i B_i Bi的编码。生成的训练将用于集成设计中的基分类器。此外,实例选择、 N B \mathcal{NB} NB的构建,以及基学习器的训练将重复几次。最后,基分类器的堆叠预测将用于包分类。
2.3 包编码
参照miFV。
2.4 集成设计
基于堆叠的集成方法用于最终分类,其中异构基学习器的堆叠用于训练元学习器。基学习器在FV编码上迭代训练,它们生成的结果将堆叠。堆叠输出将作为元学习器的输入。所提出的集成设计允许元学习器自主决定如何组合贡献成员的输出,这也是FCBE-miFV的核心特征。显然已有的MIL方法不具备高AUC到分类准确率的转换。这表明得分函数适合于分类。然后,所选择的决策阈值不是优化的,FCBE-miFV中的元学习器将使用基学习器的堆叠预测来学习决策阈值,如图2 ©。
普回归核判别分析 (Spectral regression kernel discriminant analysis, SRKDA) 和线性支持向量机 (SVM) 作为基学习器,记为 H B S V M HB^{SVM} HBSVM和 H B S R K D A HB^{SRKDA} HBSRKDA。
在训练过程,基分类器将迭代 C I CI CI次,在第 c c c次迭代中,针对于 H B S V M HB^{SVM} HBSVM和 H B S R K D A HB^{SRKDA} HBSRKDA的训练预测 S P c t r a i n SP_c^{train} SPctrain将堆叠。 C I CI CI迭代之后,元学习器 H H H基于堆叠预测来训练。在测试阶段,所有迭代的基分类器用于生成堆叠预测,而一个元学习器将获取最终的输出。