Deep domain adaptation for describingpeople based on fine-grained clothing attributes
2015
总结:目的是适应多种数据域的网络
######### 目的和难点 ##############
目的:衣物识别有现实需求,如FBI。衣物数据集总体视觉有天然的两种:网店,自拍。跨域的识别能力需要具备。衣物属性特征:细粒度属性,视觉位置搜索
难点:
现状是可以在诸如天猫这些网站上爬取到结构化的描述,可认为这是有效标注了的信息。但是与现实场景是两个域。
细粒度的衣物属性
域转换:
1. 神经网络的域转换,通常的做法是fine-tuning。
2. 特殊差异的数据集,本文将打算使用不一样的方式,对不同域的衣物图片的特征也有区分能力,这篇文章想训练对域特征具有不变性的feature层。对应的方法是参考了深度神经网络的DLID学得适应不同特征空间的数据集。使用分支+triplet loss。
网络的总体结构:
整体来看是自定义的R-CNN和NiN网络结构,也设计了一个数据集域转换的方法deep domain adaptation approach。
检索细节,使用rcnn,选择性搜索提供候选框;然后NIN在候选框中提取特征;最后,不是使用IOU方法,而是线性回归的方式linear support vector regression (SVR)预测候选框和真实值间的交并集。
关于SVR
提出的初衷是因为使用阈值方式舍弃的候选框可能也丢掉了一些有意义的。方法是计算IoU的值,然后根据IOU的值平分成10个类别{0.1,0.2…,1.0},在训练阶段控制使每个IoU类的传入数据是一样的。这一点类似于在线选取数据online hard-feature mining的做法。再然后就是常规的回归的方式使候选框接近真值。
Deepdomain adaptation
衣物不可避免的需要考虑两个域(online shopping & street)的适应性。这篇文章是设计了两个分支的网络(a specific double-path deep convolutional neural network for thedomain adaptation)。
首先,每条路径各自接收不同的数据集,两条路径卷积层结构相同。并且两分支结构共享低层次的网络参数,因为认为它们学得的东西是一样的。高层次的网络使用树状结构的全连接层来学习表达识别能力。
其次,两分支使用alignment cost layers连接,cost是使用输入feature层的相似度来衡量的,结果也会输入到loss function中去。——这样特征层参数差的不太大,且两分支的高层特征足够相似。
DDAN的实施细节
分支网络path使用的Alexnet。校准用损失layer(alignment cost layer)设在conv5,FC1。Merging layer设置在FC2.测试时,将丢弃merging layer以及其中一个分支的网络。检索的时候,FC2的输出就是输出,由此导出label