最近几年的衣物检索的网络架构发展历史

重要的相关论文及时间

1.       DDAN:DeepDomain Adaptation for Describing People Based on Fine-Grained ClothingAttributes

2.       DARN:Cross-domainImage Retrieval with a Dual Attribute-aware Ranking Network

3.       FashionNet:DeepFashion: Powering Robust Clothes Recognition and Retrieval withRich Annotations

4.       MTCT:Multi-TaskCurriculum Transfer Deep Learning of Clothing Attributes

5.       VAM:ClothingRetrieval with Visual Attention Model

 

发展历程图-short history

 

扫描二维码关注公众号,回复: 1849480 查看本文章

要解决的问题的总结:

数据集

标注中是否有landmark,对细粒度特征的位置由指示意义的标记

Online/offline clothing跨域数据集的处理——a)背景差异大;b)标注信息不同

网络结构:

1.       多任务处理的手段

2.       目标检测的手段

3.       跨域的特征差异处理方法

 

评价:

DDAN和DARN

  • 它们都是IBM和National University of Singapore联合发布的论文,使用的相同的数据集,也是要解决相同的问题,但是使用了不同的网络架构。

  • 这两个网络都是要着重处理跨域的数据差异问题,DDAN是两个分支,分支中的特征层进行差异比较,使用的是自定义alignment cost loss;DARN也是两分支,着重是看重最后所得的特征集的差异,使用triplet loss,相比于DDAN,它使用了image pair,同衣服的不同域的图片。

  • 多任务处理是多类别分类的方式。

  • 在这些网络头上,需要添加衣物检索的网络,如RCNN。

  • 这两篇基础网络的一个共同点是使用NIN的CONV,图片尺寸下降不太大

FashionNet

  • 使用landmark对多任务分类进行指示,是不用添加额外的衣物检索的网络。

  • 也使用了triplet loss,处理image pairs,但不是双网络结构,而是单支线,pairs放入到batch组合起来计算tripletloss,实现对跨域的处理能力。

  • 类别属性使用交叉熵计算loss

MTCT

  • 需要使用faster-rcnn来首先检索到人体或者衣物,然后将这部分裁剪出来送入到MTCT中去。

  • 细粒度的属性是通过多分支,分别构建各分支的FC,然后使用softmax。这一点是作者骄傲的,他认为如DDAN和DARN的结构先有总的FC特征向量,然后再分分支,既计算量大,又会丢失表达空间。

  • 双域的处理是通过将基础网络复制为三份,分别对最后一层conv后的feature map计算tripletloss——t-STE(e t-distributionStochastic Triplet Embedding (t-STE) loss function)。实际操作和Fashion net一致。

VAM

  • 不使用检索网络,是通过内嵌的FCN自动的识别想要的区域,attention机制。

  • 这篇的目的是street2shop,用街拍衣服query电商,所以最后只给一个FC特征向量。但是loss也是使用tripletloss。

  • 对于跨域的分析,也是使用正像对(positive pairs given by the dataset benchmark),然后随机选择负样本图片(negative samples)。

 

对网络设计的总结

  • 跨域能力的训练,“像对”和“triplet“似乎就是标配了,至少说明这个控制精度方面表现很好,并且可以主动的设置lossmargin来增强区分能力。

  • 多属性分类,由网络最终生成的FC特征向量,用于多任务分类。其实这部分认为可控性比较差,只能寄希望于通过多FC堆叠提高分支网络的表达能力。

  • 检索,无论是内嵌,还是单独列为一个阶段,总是不可避免的。

猜你喜欢

转载自blog.csdn.net/daniaokuye/article/details/79813177
今日推荐