【论文理解】Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images

本博记录为卤煮理解，如有疏漏，请指正。转载请注明出处。

这是由西南交大和阿里巴巴共同完成的一篇CVPR2017。

论文的目标就是根据视频中人物穿着的衣服准确的从购物网站中检索出同款。

先上文章系统网络结构图：

文章采用了fasterRCNN进行服装检测，负责从整图中抠出服装所在位置，减少纷纷扰扰的背景干扰。

对于视频帧，在初始帧使用fasterRCNN检测出服装区域后，利用KCF跟踪，便可以获取到该服装的一系列图像。

获取到服装区域后，针对不同size的服装图像，采用基于VGG改进的一个图像特征网络（IFN）进行特征的提取。其实就是在卷积和FC之间追加了一个SPP（spatial pyramid pooling），它能够从任意size的区域中提取出固定长度的特征。

对于视频帧的图像序列呢，每张图片提取完特征后还要送入一个两级的LSTM进行处理，这个过程称为VFN，视频特征网络。

检索的过程也就是计算视频帧里的衣服与购物网站中的衣服的相似度。购物网站中是一张图片，而视频帧里可以捕捉到一系列服装图像。所以比对的过程就变成了1 VS. N得出一个相似度。文章提出了一个树形的相似度计算网络（SN）。该网络包含了相似网络节点（SNN）和融合节点（FN）。经过层层融合运算，最终得到一个相似度。然后根据相似度排序就得到检索结果了。

相似网络节点（SNN）是一个有两成全连接组成的网络节点，结点的输入由网站图片中的服饰特征和视频帧中一个服饰帧的服饰特征组成，fc1有256个结点，fc2有1个结点，最终fc2的输出是一个值，通过逻辑回归计算变得到这俩服饰图片的相似度

融合节点（FN）的输入时SNN结点的fc1层的256维特征，输出是如下公式得来的

同一级的FN的输出做归一化，便得到每个FN的权重：

最终相似度的计算是融合SNN的相似度概率和FN的权重，所有级别的FN汇总得到最终相似度：

这个网络稍微有点儿复杂，文中给出了一个针对该网络效率较高的训练方法。先训特征提取和相似度计算网络节点SNN，然后固定SNN再训练融合节点FN。训练出一个通用的AsymNet，然后根据各个类别在finetuning出类别专属的AsymNet。文章给出一种Approximate Training训练过程，如下：

训练数据：视频是作者自己从天猫魔盒下载的。包含14类商品的85,677张购物网站的图片，从526个视频中截取出26,352段服装跟踪序列图，39,479对完全匹配的样本。

效果：

总结：

基于视频的服装检索是挺困难的一个任务，当前的结果仍然不如人意。

不过这篇文章思路还挺炫的，只是实现起来应该比较难，数据也没有公开，自己获取和标注难度较大。

打个广告：最近开始入坑服饰识别，即将入坑的和已经入坑的小伙伴可以添加QQ群交流：

群名称：AI服装检索分类

群号：474700336

【论文理解】Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images

猜你喜欢