【论文笔记】ECCV_2016_The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

基础信息

  • The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition
  • ECCV_2016_噪声数据在细粒度识别中的不合理有效性

个人读后感

该文章突出一点:利用来自web的免费、有噪声的数据,通过简单过滤,能够提升 通用识别方法的分类 和 细粒度分类 效果

  • 文章太长、没有源码
  • 粗读即可(看看摘要和结论)

Abstract

当前细粒度识别的方法有以下几点:首先,招募专家对图像数据集进行注释,还可以选择以 part annotations 和边界框的形式收集更多结构化数据。其次,利用这些数据训练模型。为了解决细粒度识别问题,我们引入了另一种方法,利用来自web的免费、有噪声的数据和简单、通用的识别方法。这种方法在性能和可扩展性方面都有好处。 我们在四个细粒度数据集上展示了它的有效性,大大超过了现有的技术水平,甚至没有手动收集一个标签,而且还展示了扩展到10000多个细粒度类别的初步结果。在数量上,我们在CUB-200-2011上实现了92.3%的top-1准确率,在Birdsnap上实现了85.4%,在FGVC飞机上实现了93.4%,在斯坦福犬上实现了80.8%的准确率,而无需使用带注释的训练集。我们将我们的方法与扩展细粒度数据集的主动学习方法进行了比较。

1 Introduction

细粒度识别是指区分非常相似的类别的任务,例如狗的品种[27,37],鸟类的种类[60,58,5,4],或汽车的型号[70,30]。自成立以来,已经取得了巨大的进步,流行的CUB-200-2011鸟类数据集的准确率从10.3%[60]稳步上升到84.6%[69]。

目前细粒度识别的主要方法包括两个步骤。首先,收集数据集。由于细粒度识别对人类来说是一项固有的困难任务,这通常需要招募一个专家团队【58,38】或广泛的众包渠道【30,4】。其次,使用这些专家标注的标签来训练识别方法,可能还需要以零件、属性或关系的形式进行附加标注[75,26,36,5]。虽然采用这种方法的方法取得了一些成功[5,75,36,28],但由于这些限制,其性能和可扩展性受到可用数据不足的限制。 采用这种传统方法,无法将规模扩大到世界上所有14000种鸟类(图1)、278000种蝴蝶和蛾或941000种昆虫【24】。

1-0
In this paper, we show that it is possible to train effective models of finegrained recognition using noisy data from the web and simple, generic methods of recognition [55,54]. We demonstrate recognition abilities greatly exceeding current state of the art methods, achieving top-1 accuracies of 92.3% on CUB200-2011 [60], 85.4% on Birdsnap [4], 93.4% on FGVC-Aircraft [38], and 80.8% on Stanford Dogs [27] without using a single manually-annotated training label from the respective datasets. On CUB, this is nearly at the level of human experts [6,58]. 在此基础上,我们扩大了已识别的细粒度类别的数量,报告了超过10000种鸟类和14000种蝴蝶和蛾的初步结果。

The rest of this paper proceeds as follows: After an overview of related work in Sec. 2, we provide an analysis of publicly-available noisy data for fine grained recognition in Sec. 3, analyzing its quantity and quality. We describe a more traditional active learning approach for obtaining larger quantities of fine-grained data in Sec. 4, which serves as a comparison to purely using noisy data. We present extensive experiments in Sec. 5, and conclude with discussion in Sec. 6.

2 Related Work

Xu等人[69]在多实例学习框架中使用类别标签和web图像部分扩充数据集,Xie等人[68]进行多任务训练,其中一个任务使用基本真相细粒度数据集,另一个任务不需要细粒度标签。虽然这两种方法都表明,用额外的数据扩充细粒度数据集可以有所帮助,但在我们的工作中,我们给出的结果完全放弃了使用任何经策划的地面真实数据集。在一项使用噪声数据的实验中,Van Horn等人[58]展示了从Flickr图像中学习40种鸟类的可能性。我们的工作验证并扩展了这一想法,使用类似的直觉来显著提高现有细粒度数据集的性能,并将细粒度识别扩展到一万多个类别,我们认为这对于充分探索研究方向是必要的。

Considerable work has also gone into the challenging task of curating(整理) finegrained datasets [4,58,27,30,31,59,65,60,70] and developing interactive methods for recognition with a human in the loop [6,62,61,63]. While these works have demonstrated effective strategies for collecting images of fine grained categories, their scalability is ultimately limited by the requirement of manual annotation. Our work provides an alternative to these approaches.

从嘈杂的数据中学习。我们的工作也受到了一些方法的启发,这些方法建议从网络数据中学习[15,10,11,45,34,19],或者从标签噪音的原因中学习[39,67,58,52,43]。使用web数据的工作通常侧重于一组粗粒度类别的检测和分类,但尚未检查细粒度设置。

关于标签噪声原因的方法在其结果中进行了划分:一些方法表明,关于标签噪声的推理可以对识别性能产生重大影响【66】,而另一些方法表明,从降低噪声水平或使用噪声感知模型来看,变化很小【52,43,58】。在我们的工作中,我们证明了噪声数据对于细粒度识别的效果令人惊讶,为后一种假设提供了证据。

3 Noisy Fine-Grained Data

In this section we provide an analysis of the imagery publicly available for finegrained recognition, which we collect via web search.1 We describe its quantity, distribution, and levels of noise, reporting each on multiple fine grained domains.

3.1 Categories

3.2 Images from the Web : Web 数据的获取方式

我们通过谷歌图像搜索结果获取图像,使用所有返回的图像作为给定类别的图像。 对于L-Bird和L-Butterfly,查询的是类别的学名,而对于L-Aircraft和L-Dog,查询的只是类别名称(例如,“Boeing 737-200”或“Pembroke Welsh Corgi”)。

Quantifying the Data.( 量化数据 )有多少细粒度数据可用?在图2中,我们绘制了每个类别检索到的图像数量的分布,并报告了每个类别集合的聚合。我们注意到了几个趋势:现有数据集中的类别通常在其细粒度域中很常见,与较大的L-Bird、L-Aircraft或L-Butterfly中存在的类别的长尾相比,每个类别具有更多的图像,其效果在L-Bird和L-Butterfly中最为明显。此外,细粒度类别的域具有显著不同的分布,即L-Bird和L-Aircraft在每个类别中的图像数都比L-Butterfly多。这是有道理的——细粒度的类别和类别的领域更为常见,并且拥有更大的爱好者群,因为拍摄的照片越多,它们将拥有更多的图像。我们还注意到,结果往往限制在每个类别大约800张图像,即使是最常见的类别,这可能是对公共搜索结果的限制。

4 Data via Active Learning

5 Experiments

6 Discussion

在这项工作中,我们展示了噪声数据对解决细粒度识别问题的效用。我们发现,通用分类模型和web数据的结合,通过简单的策略过滤,在区分细粒度类别方面出人意料地有效。 与用于扩展数据集的更传统的主动学习方法相比,这种方法表现良好,但更具可扩展性,我们在多达14553个细粒度类别上进行了实验验证。该方法的一个潜在限制是,对于公共领域中未发现或未描述的类别,图像的可用性可能更适合使用主动学习等替代方法。另一个限制是当前对分类的关注,如果应用程序中存在多个对象或需要本地化,则可能会出现问题。尽管如此,有了这些关于噪声数据不合理有效性的见解,我们对细粒度识别在不久的将来的应用持乐观态度。

猜你喜欢

转载自blog.csdn.net/sinat_28442665/article/details/125372320