Bag of Tricks and A Strong Baseline for Deep Person Re-identification阅读笔记

本文发表于CVPR2019，作者是浙江大学罗浩博士

摘要

本文提出一个ReID中简单且有效的baseline。本文使用一些trick，在只使用全局特征的情况下达到rank1 94.5%和mAP 85.9%的水平。

背景

Baseline对于一个领域的研究起着非常重要的作用，但是我们观察最近一年顶会发表的ReID工作，发现论文之间Baseline的差距特别大。以Market1501为例，极少数工作在90以上的Baseline上开展，而大部分集中在80~90之间，甚至部分工作在80以下的Baseline上开展。而DukeMTMC-ReID更是没有一个Baseline超过了80的Rank1。我们都清楚，在低的Baseline上面方法涨点更加容易。另外不同的Baseline也很难统一比较不同方法的优劣性。基于这个因素考虑，我们觉得需要统一一个强力的Baseline。

作者目的

经过统计发现，最近一年顶会上发表工作的Baseline性能差异性很大，并且大部分处在很低的水平。因此我们希望统一一个强力的Baseline。我们希望学术界的研究能够在这个Baseline进行扩展，这样能够早日把Market1501、DukeMTMC-reID数据集给刷爆。只有这些数据集刷爆了，学界才能意识到ReID应该进入下一阶段。我们希望给社区的审稿人一些参考，哪些trick对模型的性能会产生重大的影响，审稿时应该考虑这些trick。我们希望给业界提供一些训练trick，在很低的代价下提高模型的性能，加快产品研发的过程。
作者：罗浩.ZJU
链接：https://zhuanlan.zhihu.com/p/61831669
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

简介

当前大部分的工作都在性能不太好的baseline上进行，本文下网提供一个强力的baseline给研究者和社区来推动ReID的发展。

本文集合了一些高效的训练方法并设计了一个BNNeck。

标准baseline

骨干网络是ResNet50，训练中有以下五个步骤：

使用在ImageNet上预训练好的ResNet50参数，并将最后的全连接层的输出改为N（训练集中id数）
每个批次随机采样P个人的K张图片进行训练，batch size 为P*K，本文设计P=16,K=4
将每张图片resize到256128并向外用0补充10个像素，在随机裁剪到256128
每张图片以50%的概率水平翻转
每张图片被编码为介于[0,1]的32位浮点数的像素值，然后归一化RGB通道
模型输出ReID特征 f 和ID预测标签 p
ReID特征 f 被用来计算triplet loss，ID预测 p 用来计算cross entropy loss。triplet loss的margin设为0.3
使用Adam方法来对模型进行最优化，初始学习率设为0.00035，在40epoch和70epoce时衰减0.1，一共训练120轮

训练trick

Fig2(b)显示了这一部分所描述的训练策略
在这里插入图片描述

预热学习率（Warmup）

在这里插入图片描述

随机擦除增强(RandomErasing, REA)

标签平滑(LabelSoomth, LS)

最后一层的步长(Last Stride)

参考资料：

一个更加强力的ReID Baseline - 罗浩.ZJU的文章 - 知乎
https://zhuanlan.zhihu.com/p/61831669
ReID Strong Baseline论文阅读 - 心吾人言的文章 - 知乎
https://zhuanlan.zhihu.com/p/97495006

更详细的论文解读 https://blog.csdn.net/weixin_40671425/article/details/93885584?depth_1-utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1&utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1

一些和时间无关的故事

发布了134 篇原创文章 · 获赞 38 · 访问量 9万+

私信关注