Re-id Using CNN Features Learned from Combination of Attributes（ICPR2016）

Abstract

本文介绍了微调的CNN特征以便于行人再识别。最近已经证明在大的注释数据集（例如ImageNet）上从预先训练的卷积神经网络（CNN）的顶层提取的特征是用于各种识别任务的强有力的现成描述符。然而，预训练任务（即，ImageNet分类）与目标任务（即，人物图像匹配）之间大的差异限制了CNN特征用于行人重识别的性能。在本文中，我们通过对行人属性数据集进行微调来改进CNN特征。除了多个行人属性标签的分类丢失之外，我们通过组合不同的属性标签来提出新的标签，并将它们用于额外的分类丢失功能。组合属性损失迫使CNN区分更多行人的特定信息，产生更多的可区分的特征。在从学习的CNN提取特征之后，我们在目标重识别数据集上应用传统的度量学习以进一步增加判别力。

问题：

行人属性数据集中带注释的属性标签通常比较粗糙而且许多人共享相同的属性。虽然特征描述符需要有足够的辨别力来区分不同的人，但CNN试图将具有共同属性的不同人划分为同一类。因此，单独对行人属性进行微调的CNN特征的鉴别能力通常是不够的。

针对这一问题，作者提出：

我们专注于对类似人物进行分组的属性组合。例如，有许多人穿着毛衣，但穿红色毛衣和牛仔裤的人是有限的，因此这种属性组合代表更多的人特定信息。基于这种观察，我们将多个属性的组合视为不同的类，我们称之为组合属性（图1）。然后，我们通过最小化用于对组合属性进行分类的损失函数来对CNN特征进行微调。该辅助任务强制对更多人特定信息进行分类，因此可以在CNN内学习更多的辨别特征。值得注意的是，一旦给出基本属性标签，所提出的组合属性标签不需要手动操作注释器。

文章的贡献：

1）We show that the fine-tuning on the pedestrian attribute dataset largely improves the performance of CNN fea-
tures for person re-identification.

对行人属性数据集的微调大大提高了CNN特征在行人重识别的性能

2）We propose a loss function for classifying combination attributes to increase discriminative power of CNN fea-
tures.

提出一种损失函数，用于对组合属性进行分类，以增加CNN特征的判别力

利用属性组合的分类学习CNN特征

5个卷积层和3个全连接层

A. Overview 综述

CNN在1.2M图像上使用预训练模型进行初始化，用于对ImageNet的1,000级分类进行分类。我们的方法包括两个阶段：对辅助数据集进行CNN微调（阶段1）和对目标重新识别数据集进行特征提取（阶段2）。

P1：每一个属性组的多属性分类+联合属性分类

使用反向传播，CNN的参数被优化以最小化两个任务的损失函数。 ==》PETA数据集

P2：在目标行人再识别数据集上提取CNN特征（在FC6提取4096维特征向量）

度量方法：XQDA 目的：对于行人再识别增强鉴别能力

B. Multi-Attribute Classification Loss 多属性分类损失

训练集包含N张行人图片。每一张图像被标注了G属性组，包括性别、年龄、行李和上身衣服。对于每一个属性组，我们有K(g)个属性，比如在性别组中有男性和女性，上身颜色属性组中有黑色、白色和黄色。令表示数据集，其中xi表示第i张图像，是它的第g个属性组的属性标签矢量。标签，1表示有，0表示没有（在图xi的属性组g的第k个属性）。

通过使用多属性分类损失函数，CNN被训练用来预测每个属性组的属性标签。本文中，我们假定每张图像在每个组中只有一个属性。我们考虑每个第g组的K（g）类多类分类问题。

因为共享用于分类多个属性的CNN参数改善了属性识别的性能，基于此，我们共享CNN参数并且添加G全连接层，它们可以在每个属性组中进行分类。（见图2（a）部分）

对于每一个第g个属性组，最小化softmax损失函数。在行人数据集中，每个属性的训练样本数量通常很大程度上是不平衡的。在这种情况下，CNN特征降低了性能。为了处理这种不平衡的训练标签，我们使用下面定义的加权交叉熵损失：

其中，是第g个属性组中训练样本的数量，是第i个样本在第g组中具有的第k个属性的训练样本的数量。概率是由第g个属性组的FC8层的输出的softmax函数建模。令定义为的第k个输出，然后softmax函数被定义为：

C. Combination-Attribute Classification Loss 联合属性分类损失

我们专注于属性组合，以对通常具有更细粒度外观信息的人进行分组。为了获得组合属性标签，仅在不同属性组之间需要考虑组合，因为组中的每个属性是互斥的。人们希望仅组合来自所有G属性组的判别子集。但是，有许多可能的子集。比如，组合，其中r是被联合的属性组的数量。简单起见，我们使用所有涉及G属性的组合。这种情况之下，就会有不同的属性组合。

我们将每个组合视为分类损失函数中的不同类以进行微调。

形式上，对于每一个i样本，我们构建维属性联合指示符其中每个维数被下式确定：

在这个维指示符中，每个第i个样本中只有一个维度可以是1，并且该维度对应于不同属性的组合标签。

通常，训练数据集具有不平衡标签，并且数据集中很少有几种组合。我们丢弃来自于中满足的组合。通过重新调整标签指示符，我们获取到维联合属性标签向量

我们为分类问题添加一个全连接层同时最小化等式（1）和（2）带有权重的交叉熵损失softmax损失函数。（图2（b））我们通过定义联合属性的损失。

如果缺少组合的相关属性，则组合标签未定义。此外，我们丢弃罕见的组合。因此，组合属性中缺少一些标签信息，因此不在精细调整中使用。为了避免这个问题，我们联合最小化组合属性分类和多属性分类丢失函数（图2（a）和（b））。我们的微调的总损失函数定义如下：

其中是一个用来控制联合属性和多属性分类损失贡献的参数。

反向传播被用来学习CNN的参数。由于较低层是针对每个属性共享的，因此传播来自所有属性的损失的总和以优化CNN的较低层。

SETTINGS FOR FINE-TUNING（微调设置）

A 行人属性数据集（PETA）

我们使用行人属性（PETA）数据集[20]，这是行人属性识别的最大公共数据集。数据集由19,000个图像和61个注释属性组成。 PETA数据集中的图像是从10个公共数据集中提取的，用于人员重新识别。由于我们的目标是从不同的数据集中学习可转换的CNN特征，我们对数据集中的不同数据集进行微调，以评估重新识别性能。例如，在评估VIPeR数据集的性能时，我们从PETA数据集中排除VIPeR数据集，其余9个数据集用于微调。

从所有带注释的属性中，我们手动选择了属性子集，并制作了7组互斥属性（G = 7）; 性别，年龄，行李，上身服装，上身颜色，下身服装和下身颜色（表I）。不使用与鞋类，头发和附带物相关的属性组，因为它们在图像中过于局部化。此外，不使用少于10人注释的稀有属性。有几个人在每个属性组中具有两个以上的标签，例如UpperBody Color组中的黑色和白色。由于这种情况很少见，我们会通过其中一个属性标签随机标记。

B. 微调设定

我们在Caffe框架中实现我们的方法。AlexNet的输入层是227*227像素。跟随先前的工作，我们重新调整训练图像到256*256像素而且随机剪裁227*227的子窗口。对于测试，我们确定地将所有输入图像调整到227*227像素。我们按照Caffe的指令。我们从随机权重开始最后一个全连接的层，除了最后一层之外的所有CNN参数都从预先训练的AlexNet得到。我们将全连接层（FC6，FC7和FC8）的学习率提高了10倍于卷积层。我们使用批量大小256进行微调。我们通过水平镜像和随机裁剪来执行数据增强。最初的学习率被设定为同时每20000次迭代我们就降低学习率为

微调通常采用50000次迭代才能覆盖。 (about 4 hours on a NVIDIA GTX TITAN X GPU)

EXPERIMENTS

A. Setup

我们使用四种行人再识别数据集来评估微调的CNN特征；VIPeR、CUHK01、PRID450S和GRID。VIPeR包含在户外拍摄的具有不同视点和照明条件的632人图像对。 CUHK01包含在大学校园内拍摄的971人图像对。 PRID450S包含450个图像对，由两个不同的监控摄像头捕获。 GRID包含在地铁站上捕获的250个图像对，并包括不属于250个图像对的人的另外775个图像。

我们遵循实验条件，采用single-shot设置，这些设置在以前的工作[31]，[3]，[22]中广泛使用。具体来说，我们将每个数据集随机分成包含一半可用个体的训练和测试集。探测图像的数量等于所有数据集中的图库图像。请注意，对于GRID数据集，我们将另外775个图像添加到图库集中。评估程序重复10次，我们报告平均累积匹配特征（CMC）曲线。
我们从CNN的FC6层提取4096维特征向量，并对特征向量的L2范数进行归一化。我们将交叉视图二次判别分析（XQDA）[2]应用于度量学习。 XQDA同时学习判别度量和低维子空间，并且可以自动调整其潜在维度。

B. Performance Analysis on VIPeR

我们在VIPeR数据集上分析微调的参数。默认设置参数，阈值用于联合的属性组的数量FC层用于特征提取，迭代次数为50000.

Parameter α。图三（a）显示了变化的α的性能。当联合属性损失没有被微调时（α=0），rank-1是39.6%。当引入微调且使用联合属性损失（α=1），rank-1率为39.2%。当rank-1率比好1.2-4.1%。这些结果验证了我们在微调中添加了组合属性损失。

Iteration number.图三（b）报告了每一个微调迭代次数的rank-1率。CNN特征每5,000次迭代评估行人重识别的性能。使用组合属性和多属性损失进行微调的性能始终优于仅使用多属性损失的性能。

Combination number r.图三（c）显示了当7个属性组的不同子集用于组合标签时的rank-1速率。所有7个属性组都用于多属性丢失，只更改组合属性丢失。对于每一个r，我们学习在联合中所有的子集学习CNNs并且报告他们的均值和标准偏差。r=1代表联合属性损失没有被应用。至于增大r，性能优化并且他们在r=5,6和7处达到饱和。这可能是因为虽然组合属性的增加使得属性组合标签成为更多行人的特定信息，但是它降低了泛化能力，因为更高的r减少了每个组合属性标签的训练图像的数量。

CNN layers.图三（d）报告了不同CNN层的rank-1率。对于所有层的每个特征向量，提取的特征向量被L2规范化并且采用XQDA度量学习。可以看出，当不进行微调时，较低层产生更好的结果。这是因为较高层对语义信息更敏感[13]，重要语义信息中VIPeR和ImageNet之间存在较大差异。通过引入微调，除第一层之外的所有层的性能都得到显著改善。 FC6层的性能高于FC7层。这可能是因为行人重识别需要区分具有相同属性但具有不同外观的人。 FC6层中包含的低级信息也很有用。

C. Performance Comparison

注：

FT-CNN (Comb.+Multi)是文中提出的微调的CNN；

FT-CNN (Multi)是仅包含多属性损失函数的微调的CNN；

CNN (ImageNet)是预先在ImageNet上训练的CNN；

FT-CNN (Person) 显示当行人身份标签用于对PETA数据集进行微调时的结果；（PETA每个行人的图像不超过3张并且每一类图像的数量是不充足的，因此基于微调的属性比在PETA中仅学习行人标签表现更优。

FFN（The Feature Fusion Net）：用 ImageNet 初始化，然后在 Market-1501上训练，用这个训练好的网络在 VIPeR、CUHK01和 PRID450s上提取特征，这三个小库又划分成一半训练，一半测试。

CONCLUSION

我们已经提出使用新的损失函数进行CNN微调以对行人属性的组合进行分类。所提出的方法提高了基于属性的CNN特征的辨别能力，而没有额外的注释器成本。对四个具有挑战性的行人重识别数据集的实验结果通过对行人属性数据集进行微调来证明了高性能增益，并且证实了所提出的组合属性损失函数的有效性。因此，CNN特征在精心设计的手工描述符中取得了竞争性的表现。为了进一步改进CNN特征，我们计划通过组合行人重识别数据集和行人属性数据集来增加训练样本的数量。我们还将调查行人身份和属性组合标签的分类损失的组合。

REFERENCES

[1] Y. Yang, J. Yang, J. Yan, S. Liao, D. Yi, and S. Z. Li, “Salient color
names for person re-identification,” in Proc. ECCV, 2014.
[2] S. Liao, Y. Hu, X. Zhu, and S. Z. Li, “Person re-identification by local
maximal occurrence representation and metric learning,” in Proc. CVPR,
2015.
[3] T. Matsukawa, T. Okabe, E. Suzuki, and Y. Sato, “Hierarchical gaussian
descriptor for person re-identification,” in Proc. CVPR, 2016.
[4] T. Matsukawa, T. Okabe, and Y. Sato, “Person re-identification via
discriminative accumulation of local features,” in Proc. ICPR, 2014.
[5] P. M. Roth, M. Hirzer, M. Köstinger, C. Beleznai, and H. Bischof,
“Mahalanobis distance learning for person re-identification,” Person Re-
Identification, 2014.
[6] S. Paisitkriangkrai, C. Shen, and A. van den Hengel, “Learning to rank
in person re-identification with metric ensembles,” in Proc. CVPR, 2015.
[7] Y.-C. Chen, W.-S. Zheng, and J. Lai, “Mirror representation for modeling
view-specific transform in person re-identification,” in Proc. IJCAI,
2015.
[8] D. Yi, Z. Lei, S. Liao, and S. Li, “Deep metric learning for person
re-identification,” in Proc. ICPR, 2014.
[9] W. Li, R. Zhao, T. Xiao, and X. Wang, “Deepreid: Deep filter pairing
neural network for person re-identification,” in Proc. CVPR, 2014.
[10] E. Ahmed, M. Jones, and T. K. Marks, “An improved deep learning
architecture for person re-identification,” in Proc. CVPR, 2015.
[11] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and
T. Darrell, “Decaf: A deep convolutional activation feature for generic
visual recognition,” in Proc. ICML, 2014.
[12] A. Sharif Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, “Cnn
features off-the-shelf: An astounding baseline for recognition,” in Proc.
CVPR Workshop, 2014.
[13] H. Azizpour, A. S. Razavian, J. Sullivan, A. Maki, and S. Carlsson,
“Factors of transferability for a generic convnet representation,” IEEE
Trans. of PAMI, vol. 38, pp. 1790–1802, 2016.
[14] M. Oquab, L. Bottou, I. Laptev, and J. Sivic, “Learning and transferring
mid-level image representations using convolutional neural networks,”
in Proc. CVPR, 2014.
[15] K. Chatfield, K. Simonyan, A. Vedaldi, and A. Zisserman, “Return of
the devil in the details: Delving deep into convolutional nets,” in Proc.
BMVC, 2014.
[16] R. Feris, R. Bobbitt, L. Brown, and S. Pankanti, “Attribute-based people
search: Lessons learnt from a practical surveillance system,” in Proc.
ICMR, 2014.
[17] R. Layne, T. M. Hospedales, and S. Gong, “Person re-identification by
attributes,” in Proc. BMVC, 2012.
[18] A. Li, L. Liu, K. Wang, S. Liu, and S. Yan, “Clothing attribute assisted
person reidentification,” IEEE Trans. on Circuits and Systems for Video
Technology, vol. 25, pp. 869–878, 2015.
[19] J. Zhu, S. Liao, Z. Lei, D. Yi, and S. Z. Li, “Pedestrian attribute
classification in surveillance: Database and evaluation,” in Proc. ICCV
Workshop, 2013.
[20] Y. Deng, P. Luo, C. C. Loy, and X. Tang, “Pedestrian attribute recogni-
tion at far distance,” in Proc. ACMMM, 2014.
[21] D. Li, Z. Zhang, X. Chen, H. Ling, and K. Huang, “A richly annotated
dataset for pedestrian attribute recognition,” arXiv:1603.07054, 2016.
[22] S. Wu, Y.-C. Chen, and W.-S. Zheng, “An enhanced deep feature
representation for person re-identification,” in Proc. WACV, 2016.
[23] Y. Hu, D. Yi, S. Liao, Z. Lei, and S. Z. Li, “Cross dataset person re-
identification,” in Proc. ACCV Workshop, 2014.
[24] D. Li, X. Chen, and K. Huang, “Multi-attribute learning for pedestrian
attribute recognition in surveillance scenarios,” in Proc. ACPR, 2015.
[25] J. Zhu, S. Liao, D. Yi, Z. Lei, and S. Z. Li, “Multi-label CNN based
pedestrian attribute learning for soft biometrics,” in Proc. ICB, 2015.
[26] P. Sudowe, H. Spitzer, and B. Leibe, “Person attribute recognition with
a jointly-trained holistic cnn model,” in Proc. ICCV, 2015.
[27] J. Zhu, S. Liao, Z. Lei, and S. Z. Li, “Improving pedestrian attribute
classification by weighted interactions from other attributes,” in Proc.
ACCV Workshop, 2014.
[28] K. Yamaguchi, T. Okatani, K. Sudo, K. Murasaki, and Y. Taniguchi,
“Mix and match: Joint model for clothing and attribute recognition,” in
Proc. BMVC, 2015.
[29] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification
with deep convolutional neural networks,” in Proc. NIPS, 2012.
[30] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,
S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for
fast feature embedding,” arXiv preprint arXiv:1408.5093, 2014.
[31] D. Gray and H. Tao, “Viewpoint invariant pedestrian recognition with
an ensemble of localized features,” in Proc. ECCV, 2008.
[32] W. Li, R. Zhao, and X. Wang, “Human reidentification with transferred
metric learning,” in Proc. ACCV, 2012.
[33] C. C. Loy, T. Xiang, and S. Gong, “Time-delayed correlation analysis
for multi-camera activity understanding,” IJCV, vol. 90, pp. 106–129,
2010.
[34] L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian, “Scalable
person re-identification: A benchmark,” in Proc. ICCV, 2015.

Re-id Using CNN Features Learned from Combination of Attributes（ICPR2016）

猜你喜欢