Abstract

当input到CNN的培训数据来自互联网，他们的标签通常是模棱两可和不准确的。

本文介绍一个轻的CNN框架，能在具有大量噪声标签的大规模面部数据中学习到紧凑的嵌入。

CNN的每个积层都有maxout进入，输出结果会得到一个最大特征图（MFM），MFM通过竞争关系抑制神经元，
能分离噪声信号和信息，信号也起着特征选择的作用。

一个由五个卷积层和四个网络组成的网络在网络（NIN）层中实现减少c数数量和提高性能。

最后，设计了语义自举方法使模型的预测更好地符合嘈杂的标签。

Introduction

为了得到最后的准确率，在CNN的训练数据集加大。但是大规模数据集通常包含大量有噪声的标签，特别是当它们从图像搜索引擎或电影中自动收集时。

本文研究了一种轻型CNN框架来学习具有大量噪声标签的大规模数据的深度表示。如图1所示，我们定义了一个MFM操作，用于紧凑的表示和特征过滤器选择。 MFM是另一种选择ReLU抑制每层中的低活化神经元，被认为是一种特殊的maxout激活实现，用于分离噪声信号和信息信号。我们实施包括MFM，小卷积核，Network In Network的轻型CNN，在MS-Celeb-1M数据集上训练。

为了处理有噪声的图像，我们提出了一种语义自举方法：通过预先训练深层网络的方式自动重新标记训练数据。对原始训练标签过度怀疑，可能会导致错误的重新标记。

因此，预测和原始的标签之间的平衡很重要。

文章线索：

1）介绍了MFM操作，maxout学习轻型CNN，它有一个小参数数量。与ReLU相比，maxout的阈值从培训数据中学习，MFM采用
竞争关系使其具有更好的通用化能力，适用于不同的数据。
2）基于MFM的轻型CNN用于学习一个普遍的面部表征。卷积滤波器使用小尺寸内核和NIN来减少参数空间。这些配置可以提高速度方面的性能和存储空间。
3）通过预训练的语义自举方法提出深度网络来处理大规模数据集中的噪声标记图像。标签不一致可以通过预测的可能性有效检测到，然后重新标记或删除进行培训。
4）所提出的具有256-D表示的单一模型在五种不同的方面获得了最先进的结果面对基准，即LFW [13]，MegaFace [16]，YTF
[41]，CACD-VS [3]和CASIA NIR-VIS 2.0数据库[18]。
本文的结构如下：在第2节中，我们简要回顾一下有关人脸识别的相关工作有噪声的标签问题。第3节描述了提议减轻CNN框架和语义引导方法。最后，我们在第4节中介绍了实验结果，并在第5节中总结了本文。

Related Work

1.人脸识别

2.有噪声的标签问题

解决问题方法通常分3类：

（1）鲁棒损失用于分类任务，因此学习的分类模型是稳健的标签噪音的存在。

（2）通过识别错误标记的实例来提高培训数据的质量。

（3）直接在学习过程中模拟噪声标签的分布。该这种方法的优点是允许使用有关的信息学习期间嘈杂的标签。

Architecture

1.Max-Feature-Map Operation

大规模的人脸训练数据集通常包含不同形式的噪声和嘈杂的标签，如果不对此进行好的处理，CNN很容易学到一个有偏差的结果。

我们期望在一个卷积中激活函数层具有以下特征：

1）可以分开噪音信号和信息信号。
2）当图像中有水平边或线时，对应于水平信息的神经元是兴奋而神经元对应垂直信息被禁止。
3）一个神经元是无参数的它不依赖于训练数据。

为实现上述特征，提出MFM操作，它是maxout激活的拓展，与maxou激活t有所不同的是，使用足够的隐藏神经元来近似凸函数，MFM仅抑制少量神经元使CNN模型变得轻小和健壮。

A Light CNN for Deep Face Representation with Noisy Labels论文笔记

Abstract

Introduction

Related Work

Architecture

猜你喜欢