EANet: Enhancing Alignment for Cross-Domain Person Re-identification

行人重识别之cross domain

EANet: Enhancing Alignment for Cross-Domain Person Re-identification (2018arXiv)
原文链接

这篇文章从alignment(对准)的角度解决cross domain问题,最后的模型在source到source和source到target的效果均有了明显的提升。本文的算法思路比较简单清晰,实验部分较为精彩。推荐大家看看原文的实验部分,为自己写论文时的实验部分提供参考。

先说一下alignment问题,如下图所示。盲目将图像进行分块并计算块与块之间的相似度,在很多情况下是不合适的。
在这里插入图片描述
所以,很多学者研究了相关算法,使行人的各个部分对齐,如下图。
在这里插入图片描述
这篇文章的思路是利用行人的关键点,将行人进行分块和对准,如下图。在此基础上,进行迁移学习。
在这里插入图片描述
基于以上内容,分析一下文章的算法。
在这里插入图片描述
如图左下角所示,将图像分为9个部分。前6个部分是依靠关键点进行分割。后3个部分分别是上半部分、下半部分、全身,均是固定的比例。如果没有检测到某一个部分,那么这部分的特征就是一个0向量。如果,0向量属于query,那么该向量保留。如果0向量属于gallery,那么该向量直接被舍弃。这里有一个思想:当使用的其它算法的效果并不是完美时(如图中的关键点检测分块算法),那么我们可以结合一些其它方法(如图中的后三个部分)作为互补,这样的鲁棒性就会高一些。

图中的上半部分是将9部分的特征分别做最大池化,并根据行人id进行交叉熵损失计算。图中的下半部分根据特征对行人图像进行分割,进行像素级别的分类任务,标签是训练好的图像分割模型在行人数据库中测试时获得的伪标签。这里的思想是:如果可以根据特征分割准确(下半部分),那么各个部分的特征也将更具区分力(上半部分),降低了各个部分特征的冗余性。

最后,在source上训练的时候,综合上下两个部分。在target上迁移的时候,只使用下半部分(因为target没有id标签)。

总结:这篇文章给了我一个启发,一些可能和cross domain无关的问题,比如文中的alignment问题,如果得到了妥善的解决,那么也会对cross domain起到帮助作用。所以思维应该打开,不要总想着数据库风格迁移之类的。改善一些常见问题,也许就会有不错的效果。


欢迎讨论 欢迎吐槽

发布了38 篇原创文章 · 获赞 142 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_39417323/article/details/103543908