二十四章:Reducing Information Bottleneck for WeaklySupervised Semantic Segmentation——减小弱监督语义分割的信息瓶颈

0.摘要

        弱监督语义分割通过类别标签生成像素级定位,然而,使用这些标签训练的分类器往往只关注目标对象的小的可区分区域。我们使用信息瓶颈原理解释了这一现象:深度神经网络的最后一层通过sigmoid或softmax激活函数引起了信息瓶颈,结果只有任务相关信息的子集传递到输出层。我们首先通过一个模拟的玩具实验支持了这一论点,然后提出了一种通过去除最后一个激活函数来减小信息瓶颈的方法。此外,我们引入了一种新的池化方法,进一步鼓励从非判别区域传递信息到分类器。我们的实验评估表明,这个简单的修改显著提高了在PASCAL VOC 2012和MS COCO 2014数据集上的定位图质量,展示出了弱监督语义分割的最新最优性能。代码可在以下链接中找到:GitHub - jbeomlee93/RIB: Reducing Information Bottleneck for Weakly Supervised Semantic Segmentation (NeurIPS 2021)

1.引言

        语义分割是使用像素级分配的语义标签来识别图像中的对象的任务。深度神经网络(DNNs)的发展在语义分割方面取得了重大进展。训练语义分割的DNN需要包含大量带有像素级标签的图像的数据集。然而,准备这样的数据集需要相当大的努力;例如,在Cityscapes数据集中为单个图像生成像素级注释需要超过90分钟的时间。通过弱监督学习可以减轻对像素级标签的高度依赖。

        弱监督语义分割的目标是使用较弱的注释训练分割网络,这些注释提供的关于目标对象位置的信息比像素级标签要少,但获取成本更低。弱监督的形式可以是涂鸦(scribbles)、边界框(bounding boxes)或图像级别的类别标签。在本研究中,我们专注于图像级别的类别标签,因为它们是弱监督中成本最低且最流行的选项。大多数使用类别标签的方法会利用来自训练好的分类器(如CAM或Grad-CAM)得到的定位(归因)图生成伪造的真值,用于训练分割网络。然而,这些图仅识别目标对象在分类中起区分作用的小区域,并不能识别整个目标对象所占的区域,使得这些归因图不适合用于训练语义分割网络。我们使用信息瓶颈原理解释了这一现象。

        信息瓶颈理论分析了顺序DNN层中的信息流动:输入信息在通过DNN的每一层时被尽可能地压缩,同时尽可能地保留任务相关的信息。这对于获得分类的最佳表示是有优势的,但对于将得到的分类器的归因图应用于弱监督语义分割时则是不利的。信息瓶颈阻止目标对象的非判别信息被考虑在分类逻辑中,因此归因图只关注目标对象的小的判别区域。

        我们认为信息瓶颈在DNN的最后一层变得突出,是因为在该层中使用了双向饱和激活函数(例如sigmoid,softmax)。我们提出了一种方法,在DNN的最后一层重新训练时去除最后一个激活函数,从而减小信息瓶颈。此外,我们引入了一种新的池化方法,允许在DNN的最后一层中处理更多嵌入在非判别特征中的信息,而不是判别特征。因此,我们的方法所得到的分类器的归因图包含了更多关于目标对象的信息。

        本研究的主要贡献总结如下。首先,我们强调信息瓶颈主要发生在DNN的最后一层,这导致从训练好的分类器得到的归因图仅限于目标对象的小的判别区域。其次,我们提出了一种通过简单修改现有的训练方案来减小这种信息瓶颈的方法。第三,我们的方法显著提高了从训练好的分类器中得到的定位图的质量,在弱监督语义分割的PASCAL VOC 2012和MS COCO 2014数据集上展现出了最新的性能水平。

2.预先准备工作

2.1.信息瓶颈

        给定两个随机变量X和Y,互信息I(X; Y)量化了这两个变量之间的相互依赖关系。数据处理不等式(DPI)[13]推断出满足马尔可夫链X → Y → Z的任意三个变量X,Y和Z的互信息满足I(X; Y) ≥ I(X; Z)。DNN中的每一层只处理来自前一层的输入,这意味着DNN层形成了一个马尔可夫链。因此,通过这些层的信息流可以用DPI来表示。具体来说,当一个L层的DNN通过中间特征Tl (1 ≤ l ≤ L)从给定的输入X生成输出Yˆ时,它形成了一个马尔可夫链X → T1 → · · · → TL → Yˆ,并且相应的DPI链可以表示如下:

        这意味着输入X的信息在通过DNN的层时被压缩。 训练分类网络可以被解释为提取输入的最大压缩特征,这些特征保留了尽可能多的信息以用于分类;这些特征通常被称为最小充分特征(即判别性信息)。最小充分特征(即最优表示T∗)可以通过互信息I(X; T)和I(T; Y)之间的信息瓶颈权衡来获得(压缩和分类)[54, 15]。换句话说,T∗ = argminT I(X; T) − βI(T; Y),其中β≥0是拉格朗日乘子。 Shwartz-Ziv等人观察到在找到最优表示T∗的过程中存在一个压缩阶段:当固定l时,观察到的I(X, Tl)在最初的几个时期稳定增加,但在后期时期减少[49]。Saxe等人认为压缩阶段主要出现在配备双向饱和非线性函数(例如tanh和sigmoid)的DNN中,而在配备单向饱和非线性函数(例如ReLU)的DNN中则不会出现[46]。这意味着相比于配备双向饱和非线性函数的DNN,配备单向饱和非线性函数的DNN经历了更少的信息瓶颈。这也可以从双向饱和非线性函数的梯度饱和性来理解:梯度与某个值以上的输入相关时,梯度饱和接近于零[8]。因此,在反向传播过程中,超过某个值的特征将具有接近零的梯度,并受到限制,不能进一步为分类做出贡献。

2.2.类激活图

        类激活图(CAM)[66]识别分类器关注的图像区域。CAM基于一个卷积神经网络,在最终分类层之前使用全局平均池化(GAP)。这是通过考虑最后一个特征图的每个通道对分类得分的类特定贡献来实现的。给定一个由参数θ = {θf,w}参数化的分类器,其中f(·; θf)是GAP之前的特征提取器,w是最终分类层的权重,类c的CAM从图像x中获得,如下所示:

2.3.相关工作

弱监督语义分割:弱监督语义分割方法首先通过从经过训练的分类器获取高质量的定位图来构建初始种子。通过将已擦除了区分性区域的图像输入分类器,擦除方法[56, 37, 22]可以防止分类器仅关注对象的区别性部分。可以通过组合从不同膨胀卷积[31, 57]或DNN的不同层获得的多个归因图或通过考虑跨图像的语义相似性和差异性[17, 51]来考虑目标对象的多个上下文。Zhang等人[62]分析了图像、背景和类标签之间的因果关系,并提出了CONTA来消除分类中的混淆偏差。由于分类网络获取的定位图不能准确表示目标对象的边界,因此可以使用PSA [3]和IRN [2]等后续边界细化技术对通过上述方法获得的初始种子进行精化。

信息瓶颈:Tishby等人[54]和Shwartz等人[49]使用信息瓶颈理论来分析DNN的内部工作原理。信息瓶颈的概念已经在许多研究领域中被应用。Dubois等人[15]和Achille等人[1]利用信息瓶颈从DNN中获得最优表示。DICE [45]提出了一个基于信息瓶颈原理的模型集成方法:它旨在减少特征和输入之间的不必要的互信息,以及由分别训练的DNN产生的特征之间共享的冗余信息。Jeon等人[26]使用信息瓶颈原理研究生成模型[19]的解耦表示学习。Yin等人[60]设计了一个基于信息理论的正则化目标,用于处理元学习中的记忆问题。信息瓶颈原理还可以用于生成分类器的视觉显著性图。Zhmoginov等人[65]通过信息瓶颈权衡找到分类器的重要区域,Schulz等人[47]通过向中间特征图添加噪声来限制信息流,并量化图像区域中包含的信息量。

3.提出的方法

        使用类别标签的弱监督语义分割方法使用CAM [66]或Grad-CAM [48]从分类器生成像素级定位图;然而,这样的定位图只能识别目标对象的小区域。我们在第3.1节中使用信息瓶颈理论对这一现象进行了分析,并在第3.2节提出了解决这个问题的RIB方法。然后,我们在第3.3节中解释了如何使用通过RIB改进的定位图训练分割网络。

3.1.动机

        如第2.1节所述,具有双边饱和非线性的DNN层比具有单边饱和非线性的层具有更大的信息瓶颈。流行的DNN架构(例如ResNet [21]和DenseNet [23])的中间层与ReLU激活函数耦合,这是一种单边饱和非线性。然而,这些网络的最后一层由双边饱和非线性(如sigmoid或softmax)激活,并且使用最终特征图TL和最终分类层w计算类别概率p,即p = sigmoid(w |GAP(TL))。因此,由w参数化的最终层具有明显的瓶颈,从最后的特征TL到实际分类预测的传输的信息量将受到限制。

        这些论点类似于现有方法的观察结果。Saxe等人[46]提供的信息平面显示,信息的压缩在最后一层中比其他层更为显著。Bae等人[5]观察到,尽管分类器的最终特征图包含了关于目标对象的丰富信息,但最终的分类层滤除了大部分信息;因此,CAM不能识别目标对象的整个区域。这一观察从经验上支持了DNN最后一层中信息瓶颈的出现。 为了更仔细地观察这一现象,我们设计了一个玩具实验。我们从MNIST数据集[30]中收集包含数字'2'或'8'的图像。对于这些图像中的一小部分(10%),我们在包含数字'2'和'8'的图像上分别添加一个圆( )和一个正方形(),位置随机(见图1(a))。当将图像分类为数字'2'或'8'时,对应数字的像素是判别区域(RD),对应添加的圆或正方形的像素是非判别但与类别相关的区域(RND),而对应背景的像素则是与类别无关的区域(RBG)。

        我们训练了一个神经网络,其中包含五个卷积层和一个最后的全连接层。我们得到了每个特征Tl相对于输入图像x的梯度图Gl: Gl = ∇x P u,v Tl(u, v),其中u和v是特征Tl的空间和通道索引,对于最后的分类层(l = 6),G6 = ∇xy c。因为这个梯度图表示图像的每个像素对每个特征的影响程度,所以可以用它来检查从输入图像到连续卷积层的特征图传递了多少信息。 我们在图1(b)中展示了Gl的示例。随着输入图像通过卷积层,相对于输入的梯度总量减少,表明信息瓶颈的发生。具体而言,RBG的梯度在早期就减少了(G1 → G2),这意味着与任务无关的信息被迅速压缩。从G1到G5,RD或RND中的梯度逐渐减小。然而,梯度量的减少在最后一层(G5 → G6)中更为显著,特别是RND(红色框中)的梯度几乎消失。这支持我们的论点,即DNN的最后一层存在显著的信息瓶颈,同时强调RND中的非判别性信息尤其被压缩。

        我们进行了定量分析。我们将区域R的高梯度比率(HGR)定义为具有梯度大于0.3的像素在区域R中的比例与总像素数之比。HGR量化了从输入图像的区域R传递到每个特征的信息量。每个区域在每个层的HGR值的趋势如图1(c)所示。观察到的趋势与上述经验观察类似,再次支持了在最后一层(红色框)中发生RND的显著信息瓶颈。 我们认为信息瓶颈导致从训练好的分类器得到的定位图集中在目标对象的小区域。根据公式2,CAM只包含由最终分类权重wc处理的信息。然而,由于由于信息瓶颈,只有特征中的一部分信息通过最后一层的wc传递,剩下大部分非判别性信息被忽略,CAM无法识别目标对象的非判别性区域。使用这样的CAM来训练语义分割网络是不理想的,因为应该识别目标对象的整个区域。因此,我们的目标是通过减少信息瓶颈来弥合分类和定位之间的差距。

图1:(a) 玩具图像示例。(b) 梯度图Gk示例。(c) 每层RD、RND和RBG的HGR值的绘图,平均值基于100张图像。

3.2.减小信息瓶颈

        在第3.1节中,我们观察到输入图像中的信息特别在DNN的最后一层中被压缩,这是由于在该层中使用了双边饱和激活函数。因此,我们提出了一种方法来减少最后一层的信息瓶颈,只需简单地去除DNN最后一层中使用的sigmoid或softmax激活函数。我们专注于多类多标签分类器,这是弱监督语义分割的默认设置。假设我们给定一个输入图像x和相应的独热类标签t = [t1, · · · , tC],其中tc ∈ {0, 1} (1 ≤ c ≤ C)是类别c的指示器,C是所有类别的集合。虽然现有的方法使用sigmoid二元交叉熵损失(LBCE)来训练多标签分类器,但我们的方法将其替换为另一个损失函数LRIB,该函数不依赖于最终的sigmoid激活函数。

        其中m是一个边界,yc是图像x的分类logit。然而,从头开始用LRIB训练分类器会导致训练不稳定,因为梯度无法饱和(请参见附录)。因此,我们首先使用LBCE训练一个初始分类器,其训练得到的权重记为θ0,对于给定的图像x,我们将权重调整到一个无瓶颈模型。具体而言,我们使用从x计算得到的LRIB对初始模型进行微调,得到一个由θk(0 < k ≤ K)参数化的模型,其中θk = θk−1 − λ∇θk−1LRIB,K是总的迭代次数,λ是微调的学习率。我们称这个微调过程为RIB。使用RIB可以减少x的信息瓶颈,并且我们可以获得能够识别目标对象更多区域的CAMs,包括非判别区域。我们对所有训练图像重复RIB过程以获得CAMs。 然而,对于给定的图像x进行调整的模型很容易对x过度拟合。因此,为了进一步稳定RIB过程,我们通过在每个RIB迭代中随机选择除x之外的B-1个样本来构建一个大小为B的批次。注意,对于每次迭代,随机选择B-1个样本,而x保持不变。

RIB的有效性:我们通过将RIB应用于与第3.1节中描述的玩具实验相同的分类器来证明RIB的有效性。图2展示了在每个RIB迭代中G6的RD、RND和RBG的HGR值的示例(a)和图(b)。HGR值是对100个图像进行平均计算的。在RIB过程中,RBG的HGR值保持相对稳定,而RD和RND的HGR值显著增加。这表明RIB过程确实可以减少信息瓶颈,从而确保更多与RD和RND对应的信息被最终的分类层处理。

限制从判别区域传输信息的方法:张等人[64]展示了分类logit y和CAM之间的关系,即y = GAP(CAM)。这意味着通过RIB增加y c也会增加CAM中的像素值。为了使CAM能够识别更广泛的目标对象区域,重要的是增加非判别区域的像素得分,而不是判别区域。因此,我们在RIB过程中引入了一种新的池化方法,以便之前向分类logit传递少量信息的特征对分类做出更大贡献。 我们提出了全局非判别区域池化(GNDRP)。与GAP不同,GAP会聚合特征图Tl中所有空间位置的值,而我们的GNDRP只会选择性地聚合CAM得分低于阈值τ的空间位置的值,如下所示:

        其他的弱监督语义分割方法也考虑了除了GAP之外的新的池化方法来获得更好的定位图[4, 27, 44]。先前的工作中引入的池化方法使分类器更加关注判别性部分。相反,GNDRP排除了高度激活的区域,鼓励非判别区域进一步激活。

获得最终的定位图:我们通过聚合在每个RIB迭代k中从分类器获得的所有CAMs来获得最终的定位图M:M = Σ(0≤k≤K) CAM(x; θk)。

图2:在每个RIB迭代中对G6的RD、RND和RBG的分析。

表1:在PASCAL VOC和MS COCO训练图像上,基于mIoU(%)对初始种子(Seed)、带有CRF的种子(CRF)和伪地面真实掩膜(Mask)进行比较。†表示Zhang等人[62]报告的结果,‡表示我们获得的结果。

3.3.弱监督语义分割

        由于CAM [66]是从分类器产生的下采样中间特征中获得的,因此应该将其上采样到原始图像的尺寸。因此,它倾向于粗略定位目标对象,并且不能准确表示其边界。许多弱监督语义分割方法[7, 6, 55, 62, 40, 31]通过使用已建立的种子优化方法[25, 3, 2, 27, 10]修改其初始种子来产生伪地面真实掩膜。类似地,我们通过将IRN [2](一种最先进的种子优化方法)应用于粗糙的地图M来获得伪地面真实掩膜。 此外,由于图像级别的类别标签缺乏关于目标对象形状的任何先验知识,因此在现有方法中普遍使用显著性目标掩膜监督[59, 31, 22, 38]。显著性目标掩膜监督也可以应用于我们的方法来优化伪地面真实掩膜:当在此地图上将伪标签中的前景像素标识为背景,或将背景像素标识为前景时,我们在分割网络的训练中忽略这些像素。

4.实验

4.1.实验设置

数据集和评价指标:我们在PASCAL VOC 2012 [16]和MS COCO 2014 [39]数据集上进行了实验,定量和定性地评估了我们的方法。 遵循弱监督语义分割中的通常做法[3, 2, 31, 62],我们使用了由Hariharan等人[20]增强的PASCAL VOC 2012数据集,其中包含来自20个类别的10,582个训练图像。MS COCO 2014数据集包含大约82,000个包含80个类别对象的训练图像。我们通过计算平均交并比(mIoU)值,在PASCAL VOC 2012数据集的1,449个验证图像和1,456个测试图像以及MS COCO 2014数据集的40,504个验证图像上评估了我们的方法。

可重现性。我们按照Ahn等人[2]的步骤实现了CAM [66],并使用PyTorch框架[43]进行实现。我们使用ResNet-50 [21]作为分类器的主干网络。我们使用学习率为8×10−6和批量大小为20对分类器进行了K = 10次迭代的微调。我们将边界m设置为600。对于GNDRP,我们将τ设置为0.4。对于最终的语义分割,我们使用了由[42]提供的DeepLab-v2-ResNet101的PyTorch实现。我们使用在ImageNet数据集[14]上预训练的初始模型。对于MS COCO 2014数据集,我们将训练图像裁剪为481×481的裁剪尺寸,而不是PASCAL VOC 2012数据集使用的321×321,考虑到该数据集中图像的尺寸。 图3:(a)PASCAL VOC 2012训练图像和(b)MS COCO 2014训练图像在RIB过程中获得的定位图示例。

4.2.弱监督语义分割

4.2.1.初始种子和伪造的真值质量

PASCAL VOC 2012数据集:在表1中,我们报告了从我们的方法和其他最新技术生成的初始种子和伪地面真实掩膜的mIoU值。按照SEAM [55]的做法,我们评估了一系列阈值来区分地图M中的前景和背景,并确定最佳的初始种子。我们的初始种子相对于原始CAM(用于比较的基准)表现出了7.7%的改进,同时也优于其他方法的初始种子。需要注意的是,我们的初始种子比SEAM的初始种子更好,后者通过考虑辅助自注意力模块中像素之间的关系,在像素级别对初始CAM进行进一步优化。

        我们应用了基于条件随机场(CRF)[28]的后处理方法对从Chang等人[7]、SEAM[55]、IRN[2]和我们的方法获得的初始种子进行像素级别的细化。平均而言,应用CRF使所有的种子改进超过5%,除了SEAM。CRF仅使SEAM改进了1.4%,这是合理的,可以认为这种异常小的改进是因为自注意力模块已经对CAM的种子进行了优化。当我们的方法产生的种子经过CRF的细化后,比SEAM的种子改进了6.1%,从而在很大程度上优于所有最近的竞争方法。

        此外,我们将经过种子细化后得到的伪地面真实掩膜与使用其他方法得到的进行了比较。大多数比较的方法使用PSA [3]或IRN [2]来优化它们的初始种子。为了公平比较,我们使用两种种子细化技术生成伪地面真实掩膜。表1显示,我们方法得到的掩膜在与PSA [3]的比较中达到了68.6的mIoU,在与IRN [2]的比较中达到了70.6的mIoU,从而在很大程度上优于其他方法。

MS COCO 2014数据集:表1展示了我们的方法和其他最新方法在MS COCO 2014数据集上获得的初始种子和伪地面真实掩膜的mIoU值。我们使用官方代码获得了IRN [2]的结果作为基准性能。我们的方法改进了基准的IRN [2]的初始种子和伪地面真实掩膜,分别提升了3.0%和2.7%的mIoU值。

        图3展示了PASCAL VOC 2012和MS COCO 2014数据集上通过RIB过程逐渐细化的定位图示例。更多的样本可以在附录中找到。

4.2.2.弱监督语义分割的性能

PASCAL VOC 2012数据集:表2展示了我们的方法和其他最近引入的弱监督语义分割方法在PASCAL VOC 2012验证和测试图像上预测的分割图的mIoU值,这些方法使用边界框标签或图像级别的类标签。表2中的所有结果都是使用基于ResNet的主干网络[21]获得的。我们的方法在PASCAL VOC 2012语义分割基准测试中,分别在验证图像和测试图像上实现了68.3和68.6的mIoU值,优于所有使用图像级别类标签作为弱监督的方法。特别是,我们的方法优于CONTA [62],这是我们的竞争对手中表现最好的方法,达到了66.1的mIoU值。然而,CONTA依赖于SEAM [55],已知SEAM优于IRN [2]。当CONTA使用IRN进行更公平的比较时,其mIoU值降至65.3,而我们的方法超过了3.0%的提升。

        表3将我们的方法与其他最近使用额外显著对象监督的方法进行了比较。我们使用了Li等人[38]和Yao等人[59]使用的显著对象监督。我们的方法在验证图像和测试图像上分别实现了70.2和70.0的mIoU值,优于在相同监督水平下引入的所有最新方法。 图4(a)展示了我们的方法在有和没有显著性监督的情况下预测的分割图示例。显著性监督提供的边界信息使得我们的方法能够产生更精确的边界(黄色框)。然而,当使用显著性监督时,图像中的非显著对象往往被忽略,而RIB成功地识别了它们(例如,图4(a)中第一列的一个“沙发”和红色框中的“人”)。这一经验性发现启发了未来一个可能的工作,可以同时识别精确的边界和非显著对象。

MS COCO 2014数据集:表4比较了我们的方法与其他最近的方法在MS COCO 2014验证图像上的表现。相比于我们的基线IRN [2],我们的方法在mIoU得分上提高了2.4%p,并且明显优于其他最近的竞争方法[11, 62, 58]。在与CONTA [62]的比较中,CONTA [62]中报告的IRN结果与我们获得的结果有所不同。因此,我们比较相对改进:CONTA相对于IRN实现了0.8%p的改进(32.6 → 33.4),而我们的方法实现了2.4%p的改进(41.4 → 43.8)。图4(b)展示了我们的方法对MS COCO 2014验证图像的预测分割图示例。

图4:IRN [2]和我们的方法对于(a) PASCAL VOC 2012验证图像和(b) MS COCO 2014验证图像的预测分割掩膜示例。

表2:在PASCAL VOC 2012验证和测试图像上进行的语义分割性能比较。

表3:使用显式定位线索对PASCAL VOC 2012验证和测试图像进行的语义分割性能比较。S:显著对象,SI:显著实例。

表4:在MS COCO验证图像上进行的语义分割性能比较。

表5:初始种子的mIoU得分比较:(a)使用不同的激活函数进行最后一层的比较,(b)使用不同的m和λ值进行比较,(c)使用不同的τ值进行比较。

4.3.消融研究

        在本节中,我们通过在PASCAL VOC 2012数据集上进行各种消融研究来分析我们的方法,以提供有关我们方法每个组成部分的有效性的更多信息。

迭代次数K对RIB过程的影响: 我们分析了迭代次数K对RIB过程有效性的影响。图5显示了基线CAM方法获取的初始种子的mIoU得分,以及RIB过程中每个迭代使用GAP或GNDRP的mIoU得分。随着RIB过程的进行,无论是使用哪种池化方法,定位图都得到了显著改善。然而,使用GAP的RIB的性能提升有限,甚至在后续迭代(K > 5)中略微下降。这是因为GAP允许已经提供足够分类信息的特征在分类中更加参与。由于我们提出的GNDRP限制了这些有区分性区域对分类的贡献增加,使用GNDRP的RIB可以有效地让非有区分性信息在分类中更加参与,从而在后续迭代中得到更好的定位图。我们观察到,将K的值改为大于10(甚至20)会导致mIoU下降不超过0.8%,这表明选择一个好的K值并不困难。

使用LRIB进行微调:为了验证LRIB的有效性,我们使用各种双向饱和激活函数对模型进行微调,使用BCE损失进行微调。表5(a)显示了通过使用sigmoid、tanh和softsign激活以及我们的LRIB进行微调得到的初始种子的mIoU得分。我们通过仿射变换将tanh和softsign的输出调整为在0和1之间的值。使用双向饱和激活函数进行微调在一定程度上改善了初始种子,这证明了每个样本适应性的有效性;然而,由于剩余的信息瓶颈,它们的性能改进有限。值得注意的是,softsign激活函数提供比tanh和sigmoid更好的定位图。我们认为这是因为与其他函数相比,softsign的梯度在较高的值处达到零(请参见附录),因此,softsign具有较少的信息瓶颈。我们的LRIB有效地解决了信息瓶颈并实现了最佳性能。

对超参数的敏感性分析:我们分析了初始种子的mIoU对涉及RIB过程的超参数的敏感性。表5(b)给出了使用不同的m和λ值组合获得的初始种子的mIoU值。总体而言,当m和λ的值较小,RIB过程的强度减弱时,观察到稍低的性能。对于足够大的m和λ,RIB过程的性能是有竞争力的。表5(c)分析了GNDRP中涉及的阈值τ的影响。将τ从0.3增加到0.5,mIoU变化不超过1%,因此我们得出结论,RIB过程对τ的变化具有鲁棒性。

图5:通过初始种子的mIoU来分析使用GAP或GNDRP的RIB过程。

表6:在PASCAL VOC 2012训练图像上的精确度(Prec.)、召回率和F1分数的比较。

表7:'boat'和'train'类别的初始种子的mIoU(%)

4.4.虚假相关性分析

        在自然图像中,当某一类别的物体主要在特定背景下一起出现时,目标物体和背景可能会出现虚假相关性[36,62](例如,海上的船和铁轨上的火车)。由于图像级别的类别标签无法提供目标物体的明确定位线索,使用这些标签训练的分类器容易受到虚假相关性的影响。从分类器得到的定位图可能也会突出显示虚假相关的背景,从而降低了精确度。这是一个长期存在的问题,在弱监督语义分割和目标定位中经常出现。

        RIB可能还会激活部分虚假背景。然而,通过将我们的方法的精确度、召回率和F1分数与表6中其他最近方法的结果进行比较,我们发现发现属于前景的区域数量明显更多。Chang等人[7]获得了较高的召回率,但精确度大幅下降。SEAM [55]通过在第4.2.1节中提到的附加模块中实施像素级细化来避免精确度损失。我们的方法在没有外部模块的情况下,改善了我们基线IRN [2]的精确度和召回率。

        为了进一步分析虚假相关的背景,我们展示了我们的方法和其他最近方法在种子改进方面的类别级别结果。我们选择了两个代表性的类别,“boat”和“train”,这两个类别的背景与前景存在虚假相关性(海上的船和铁轨上的火车)。表7显示,即使对于已知存在虚假前景-背景相关性的类别,RIB也可以改善定位质量(mIoU)。

5.总结

        在这项研究中,我们解决了基于图像级别类别标签的弱监督语义分割中的主要挑战。通过信息瓶颈原理,我们首先分析了为什么从分类器获得的定位图仅能识别目标物体的一个小区域。我们的分析指出,从输入图像到输出分类之间传递的信息量在很大程度上由DNN的最后一层决定。然后,我们通过对现有训练方案进行两个简单的修改来减少信息瓶颈:删除DNN中的最后一个非线性激活函数和引入一种新的池化方法。我们的方法显著改善了从分类器获得的定位图,并在PASCAL VOC 2012和MS COCO 2014数据集上展现了最新的性能水平。 社会影响:这项工作可能具有以下社会影响。不需要像素级注释的物体分割将为研究和商业开发节省资源。在医学等领域,这特别有用,因为专家注释成本很高。然而,有些公司提供图像注释作为其服务的一部分。如果通过弱监督学习减少了DNN对标签的依赖性,这些公司可能需要改变他们的商业模式。

猜你喜欢

转载自blog.csdn.net/ADICDFHL/article/details/132000715