Bag of Tricks and A Strong Baseline for Deep Person Re-identification阅读笔记

本文发表于CVPR2019,作者是浙江大学罗浩博士

摘要

本文提出一个ReID中简单且有效的baseline。本文使用一些trick,在只使用全局特征的情况下达到rank1 94.5%和mAP 85.9%的水平。

背景

Baseline对于一个领域的研究起着非常重要的作用,但是我们观察最近一年顶会发表的ReID工作,发现论文之间Baseline的差距特别大。以Market1501为例,极少数工作在90以上的Baseline上开展,而大部分集中在80~90之间,甚至部分工作在80以下的Baseline上开展。而DukeMTMC-ReID更是没有一个Baseline超过了80的Rank1。我们都清楚,在低的Baseline上面方法涨点更加容易。另外不同的Baseline也很难统一比较不同方法的优劣性。基于这个因素考虑,我们觉得需要统一一个强力的Baseline。

作者目的

经过统计发现,最近一年顶会上发表工作的Baseline性能差异性很大,并且大部分处在很低的水平。因此我们希望统一一个强力的Baseline。我们希望学术界的研究能够在这个Baseline进行扩展,这样能够早日把Market1501、DukeMTMC-reID数据集给刷爆。只有这些数据集刷爆了,学界才能意识到ReID应该进入下一阶段。我们希望给社区的审稿人一些参考,哪些trick对模型的性能会产生重大的影响,审稿时应该考虑这些trick。我们希望给业界提供一些训练trick,在很低的代价下提高模型的性能,加快产品研发的过程。
作者:罗浩.ZJU
链接:https://zhuanlan.zhihu.com/p/61831669
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

简介

当前大部分的工作都在性能不太好的baseline上进行,本文下网提供一个强力的baseline给研究者和社区来推动ReID的发展。

本文集合了一些高效的训练方法并设计了一个BNNeck。

标准baseline

骨干网络是ResNet50,训练中有以下五个步骤:

  1. 使用在ImageNet上预训练好的ResNet50参数,并将最后的全连接层的输出改为N(训练集中id数)
  2. 每个批次随机采样P个人的K张图片进行训练,batch size 为P*K,本文设计P=16,K=4
  3. 将每张图片resize到256128并向外用0补充10个像素,在随机裁剪到256128
  4. 每张图片以50%的概率水平翻转
  5. 每张图片被编码为介于[0,1]的32位浮点数的像素值,然后归一化RGB通道
  6. 模型输出ReID特征 f 和ID预测标签 p
  7. ReID特征 f 被用来计算triplet loss,ID预测 p 用来计算cross entropy loss。triplet loss的margin设为0.3
  8. 使用Adam方法来对模型进行最优化,初始学习率设为0.00035,在40epoch和70epoce时衰减0.1,一共训练120轮

训练trick

Fig2(b)显示了这一部分所描述的训练策略
在这里插入图片描述

预热学习率(Warmup)

在这里插入图片描述

随机擦除增强(RandomErasing, REA)

标签平滑(LabelSoomth, LS)

最后一层的步长(Last Stride)

参考资料:

  • 一个更加强力的ReID Baseline - 罗浩.ZJU的文章 - 知乎
    https://zhuanlan.zhihu.com/p/61831669
  • ReID Strong Baseline论文阅读 - 心吾人言的文章 - 知乎
    https://zhuanlan.zhihu.com/p/97495006

更详细的论文解读 https://blog.csdn.net/weixin_40671425/article/details/93885584?depth_1-utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1&utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1

发布了134 篇原创文章 · 获赞 38 · 访问量 9万+

猜你喜欢

转载自blog.csdn.net/rytyy/article/details/105185985