【论文笔记】Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics


Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics
arXiv:2004.02331v1 [cs.CV] 5 Apr 2020
超越局部像素统计的指导性自我监督特征学习
注:限于作者水平,本笔记难免存在不妥之处,欢迎批评指正

摘要

我们基于图像的特定转换的辨别引入了一种自我监督功能学习的新原理。我们认为,学习特征的泛化能力取决于足以区分不同图像变换的图像邻域大小:所需的邻域大小越大,并且该功能可以描述的图像统计数据越全面。

准确描述全局图像统计信息可以更好地表示对象的形状和配置及其上下文,从而最终更好地为新任务生成对象,例如对象分类和检测。这提出了选择和设计图像转换的标准。基于此标准,

我们引入了一种新颖的图像变换,称为有限上下文修补(limited context inpainting,LCI)。这种转换可以修补仅以较小的矩形像素边界(受限上下文)为条件的图像补丁。由于边界信息有限,因此可以学习匹配局部像素统计信息,但是不太可能匹配图像的全局统计信息。可以使用相同的原理来判断诸如图像旋转和扭曲之类的变换的性能。

通过实验证明,学会辨别诸如LCI,图像扭曲和旋转之类的变换,会在诸如Pascal VOC,STL-10,CelebA和ImageNet的多个数据集上产生具有最新泛化能力的功能。值得一提的是,我们的受过训练的功能与通过ImageNet标签进行的有监督的学习所训练的功能在一些地方表现相当。

1.简介

在底行中,我们显示已转换的图像,以便保留顶行中相应图像的局部统计信息,但不保留全局统计信息。我们通过实验发现,使用ImageNet标签预先训练过的特征很难分辨真实图像和已转换图像。这个简单的测试表明,ImageNet中的分类任务可以通过专注于局部图像统计来解决。但实验表明训练监督模型以关注全局统计数据可以提高特征学习的泛化性和鲁棒性。
在这里插入图片描述
在这里插入图片描述
我们方法中的训练任务是区分全局图像统计信息。为此,我们以使本地统计数据基本不变而全球统计数据明显更改的方式转换图像。通过这样做,我们确保仅通过局部补丁进行处理就不可能区分出此类变换,而是需要使用整个图像。
在这里插入图片描述
LCI从自然图像中选择一个随机色块,将中心替换为噪声(因此,它保留了较小的像素外部边界),并通过对抗训练来训练网络以绘制逼真的中心。虽然LCI可以在补丁的真实中心进行修补,以使其与保留的边界无缝融合,但不太可能提供与原始图像其余部分的有意义的匹配。因此,这种不匹配只能通过学习图像的全局统计信息来检测。我们的公式还具有高度的可扩展性,可以轻松地将更多的转换纳入其他类别。

贡献:
1)我们引入了一种新的基于图像变换的自我监督学习原理,该原理只能通过全局观测来检测;
2)我们根据这一原理引入了一种新颖的转换,并通过实验证明了其对功能学习的影响;
3)我们制定了方法,以便可以通过附加转换轻松扩展规模;
4)我们提出的方法可以在多个数据集上进行转移学习,从而达到最先进的性能;本文的方法在在一些地方的性能与通过ImageNet标签的有监督学习训练的功能相当。

2.相关工作

自监督学习
对抗特征学习
识别图像处理

3.通过判别全局图像变换特征学习

目标是通过识别全局图像统计量的变化来学习无需人工注释的图像表示形式。我们通过区分自然图像和经历了几种不同图像转换的图像来做到这一点。

给定一组未标记的训练图像{xi} i = 1,…,N和一组图像变换{Tj} j = 0,…,K,我们训练一个分类器C通过给定一个变换示例Tj◦xi预测变换标签j
在我们的情况下,我们将K = 5。
来表示未经转换的图像示例
通过最小化LSSL来训练网络C
在这里插入图片描述
lcls是用于多分类问题的标准交叉熵损失

3.1LCI有限上下文修复

LCI的目标是只在局部修正图像
在这里插入图片描述
修复网络F与块判别器D(用于确保匹配局部统计)以及变换分类器C对抗训练得到。
在这里插入图片描述

3.2随机弯曲

在这里插入图片描述
扭曲对局部图像统计的影响很小:通常,很难将扭曲的补丁与经历了视角变化的补丁区分开。因此,分类器需要学习全局图像统计信息以检测图像变形。

3.3图像旋转

使用90、180、270三个度

这些转换是可预测的,因为摄影偏置(bias)为许多自然图像引入了规范的参考方向。

存在几种设置,其中图像旋转的预测不会带来良好的功能。例如,许多自然图像没有规范的图像方向。在这些情况下,图像旋转的预测是不适当的任务。
在这里插入图片描述
在这里插入图片描述

3.4 防止退化学习

正如Doersch等人所观察到的。训练有素的解决自我监督任务的网络可以通过使用非常本地的统计信息(例如,通过检测色差进行定位)来实现。这样的解决方案称为捷径,是一种退化学习的形式,因为它们产生的特征具有较差的泛化能力。在引入人工任务(例如,对多个图像转换的区分)时,重要的是要确保受过训练的网络不能利用转换引入的(局部)伪像来解决任务。例如,分类器可以学会识别喷漆器F的处理伪像,以便识别LCI变换后的图像。尽管对抗训练应有助于防止这种行为,但我们通过实验发现,仅靠这种行为是不够的。为了进一步防止此类故障情况,我们还通过修改等式5中的损耗Linp来训练网络F自动编码图像补丁。
在这里插入图片描述
我们还通过用其自动编码版本替换随机补丁来创建人工未变形图像。在每个分类器的微型批处理中,我们用这些补丁自动编码的图像替换了一半未转换的图像。通过这种方式,分类器将不会专注于小的伪像(肉眼甚至看不到),以此来识别转换。在训练期间,在应用旋转之前,我们还将这些小块自动编码的图像替换成小批量中的一半原始图像。

4.变化的选择

我们的目标是通过区分经历不同变换的图像来学习特征。这种方法应使用只能通过观察大像素区域才能区分的变换,并且这种变换是可扩展的,即可以通过包含更多变换来进一步完善。在本节中,我们希望使这两个方面更加清楚。

确定合适的转换。

直观地讲,理想的转换是在原始数据集中应找到任何已转换的局部补丁,而在原始数据集中则不应找到任何已转换的全局补丁。数据集。这也是LCI设计背后的关键思想。

介绍其他转换。

添加更多的转换可以提高性能。重要的方面是分类器必须能够区分不同的转换。否则,它的任务就很模糊,并可能导致学习退化。简而言之,转换后的全局补丁应与通过其他转换而转换的任何其他全局补丁(包括其自身)不同。我们验证了我们选择的变换满足此原理,因为LCI和图像变形无法生成旋转的图像,并且变形是全局变形,而LCI是局部变形。

5.实验

在STL-10上进行有限上下文修复(LCI)的不同设计选择的消融实验[5]。我们对AlexNet进行预训练,以预测图像是否已使用LCI进行了转换,并将冻结的conv5功能进行线性分类。
a-c不同块大小,d-f防止捷径
在这里插入图片描述
我们报告了在冻结特征上训练的线性分类器的测试集准确性,该模型用于预测STL-10上图像变换的不同组合的模型。
在这里插入图片描述
我们报告了训练为预测CelebA图像变换的不同组合的模型的冻结特征上的预测面部特征的线性分类器的平均精度。
在这里插入图片描述
与最新的特征学习方法相比,用在PASCAL上进行分类,检测和分割的转移学习结果(*使用了更大的AlexNet)
在这里插入图片描述
使用在冻结卷积层上训练的线性分类器在ImageNet上验证集的准确性。†进行多物评估,*使用更大的AlexNet。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

我们引入了自我监督的特征学习任务,以区分自然图像与通过局部修补(LCI),图像变形和旋转所转换的图像,其原理是,受过训练的特征在需要检测全局自然图像统计信息时可以更好地泛化。该原则得到大量实验评估的支持:经过训练的功能在多个迁移学习基准(Pascal VOC,STL-10,CelebA和ImageNet)上达到了SotA的性能,甚至在Places上略胜于有监督训练。

猜你喜欢

转载自blog.csdn.net/weixin_43359312/article/details/107830415
今日推荐