【论文笔记】A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance

A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance
(关于城市监控车辆重识别的基于深度学习的渐进式算法)

1.简介

背景(略)。
作者提出PROVID,基于深度学习的车辆re-ID方法,有如下特点:
(1)和现实中一样,采用循序渐进的方法搜寻车辆(由粗到精,由近到远)
(2)粗分类:根据深度神经网络学习的外观属性(颜色,纹理,形状,种类)模型作为粗分类器。采用low-level和high-level融合模型。
(3)精确查找:根据基于Siamese网络的车牌认证匹配车牌图像。用大量车牌图片训练siamese网络。
(4)由近到远:根据时空关系协助搜寻过程。对车辆进行重排序,得到最终结果。
作者建立了车辆重识别的数据集—VeRi-776,包括多种属性,高再现率,充足的牌照信息和时空标签

2.相关工作

3.提出方法

3.1概述
见简介:整体网络架构如下:
这里写图片描述
3.2**CNN抽取外观属性**
纹理特征由传统的描述符表示,如尺度不变特征变换(SIFT),然后描述符被BOW模型编码。由于其在图像检索里的精确和有效。
颜色特征CN模型抽取,该模型由BOW模型量化,由于它(who?)在行人重识别中的表现。
High-level属性使用CNN学习,如Googlenet。此模型在CompCars数据集上微调,用于监测车辆的细节属性(如门的数量,灯的形状,座椅的数量,车辆的模型)。
这三个属性特征由distance-level融合器合成。
BTW,语义属性???
3.3基于Siamese神经网络的车牌认证
车牌识别受限于视角,光照,分辨率,图像模糊等等方面,而且车牌识别技术需要:车牌定位(在图中的位置),形状适应,字符分割,字符识别。因此它十分不适合本项目。
Siamese网络(SNN)应用于签名认证任务。SNN学习将输入图像映射到潜在空间的函数,相似度大的是相同对象的一对图像,相似度小的则是不同对象的一对图像。因此,种类数量大的时候,或者训练时全部种类的样例不可得到的时候,就可以使用SNN。
这里写图片描述
SNN的网路如上图所示,两个平行的CNN,每一条CNN构成如下:
(1)2层(卷积+最大池化)
(2)3层全连接层
(3)最后使用Contrastive LOSS函数
(4)参数设置如图所示
(5)输入两张图片,若为同一图片,则标记1,否则标记0(如何传递?)前向传播,Contrative loss函数联合计算LOSS。反向传播,共享权值同时更新。
Sw(x1)是:X1映射到潜在尺度空间的值。
这里写图片描述
这个式子也叫能量函数(energy function):测量的是x1和x2之间的兼容性。
这里写图片描述
(x1,x2,y)是一对有标签的样例,m是正范围。在caffe框架设置默认m=1。测试时,SNN的FC2层抽取1000维的特征(什么意义?)
欧氏距离用来估计两张图像之间的相似性得分。(如何计算(变量是谁)??与上面的能量函数有区别吗?)
3.4基于时空关系的车辆重排序
分析了20000个同一车辆的图像对,和20000个随机选取的车辆的图像对。用统计数据看出:相同车辆对的时间、空间距离比随机选取车辆对的时间、空间距离小很多。
得出结论,大胆假设:两幅图像大概率是同一车辆如果它们的时间、空间距离都很小。
这里写图片描述
Tmax是所有查询图像和测试数据中最大的时间差。
这里写图片描述是两个相机之间的最短路径距离。
Dmax是所有相机之间的最大路径距离。
两相机之间的最短路径由Google map获得,存在矩阵中。(如下图所示)
这里写图片描述

4.实验

4.1数据集
VeRi-776数据集是从VeRi改进而来。
VeRi数据集有如下3个特点:
(1)它包括了由20个监控摄像头捕获的619辆车的40000张图像。
(2)它的图像是在真实世界中的无限制的交通场景中捕获的,并标注了许多属性:BBoxes,种类,颜色,(有颜色标注!为何还要3.2节中的颜色抽取?)品牌。
(3)它的每一个图像都是2~18个相机从不同的视角、照明环境、遮挡情况下捕获的。提供了对车辆Re-ID真实情况的高复现率。
因此,我们扩建了VeRi,有如下几个方法:
(1)数据容量扩大
向数据集中添加20%新车辆,同样标注了BBoxes,种类(这个types到底是啥?),颜色,品牌,交叉摄像机关系信息。这使得数据集包括了50000+张图像,9000+轨迹,776种车辆。
(2)车牌注释
将数据集分为200辆车(作为测试集)和576辆车(作为训练集)。在测试集中,从每一个轨迹中抽取一张图片,得到1678个查询(Why?)。对每一个查询图像和测试图像,人工标注车牌的边框信息(确定车牌的位置),得到车牌图像。
(3)时空关系注释
轨迹是同一时刻同一摄像头捕获到的车辆路径,属于同一轨迹的轨道被聚类在一起。首先对摄像头标号(1-20);然后使用第一次捕获到的时间戳最为它的时间标记;然后,为了加速(用于基于时空关系排序的)空间距离的计算,我们通过Google map计算20个摄像头每对之间的最短路径长度。
4.2实验设置
Image-to-track,图像到轨迹的方法。图片与轨迹的相似度=查询图像与所有轨迹上的图像的相似度。实际中,我们只需要找到一个相机中的轨迹就可以捕获目标车辆。因此,图像到轨迹的方法在实际场景中是更明智的选择。
4.3车牌认证的评估
经过大量车牌对训练的SNN模型能够把输入图案映射到潜在空间里(同一检测目标对相似度指标很大,不同的指标则很小)大量的训练车牌样例保证了学习模型的鲁棒性。
4.4车辆Re-ID的评估
外观属性识别上,旧方法都有不错的表现,但在re-ID上就不行了。FACT比Googlenet更好,因为Googlenet只能考虑语义属性(high-level),但FACT除此外还加入了颜色和纹理特征。但外观属性识别不能精确确定车辆身份。
外观属性识别是粗分类,而车牌认证是精准搜寻。外观属性识别能过滤绝大多数不相似的车辆,尤其是那些有相似车牌的查询。然后剩下的车辆,外观相似,基于车牌的方法能够搜寻到车牌也相似的车辆,从而避免错误匹配。
我们的from-near-to-distant策略,渐进搜寻方法获得了较高的准确率以及提升了速度

5.结论

由粗到精,由近到远(from-coarse-to-fine,from-near-to-distant)
外观属性识别->车牌认证->时空关系约束重排序
建立了数据集VeRi-776,包含不同的车辆属性,充足的车牌信息,精确的时空关系。

几个问题:
1.何为latent space(潜伏空间)?
3.关于BBoxes(边框),亦即确定图中车辆的位置的边框,边框的意义见如下博客:
https://blog.csdn.net/zijin0802034/article/details/77685438
4.这篇文章的颜色属性究竟是标注的还是利用网络识别的?语义(semantic)属性是什么?
5.几个算法SIFT?FACT MODEL?BOW?CN?LOMO?

猜你喜欢

转载自blog.csdn.net/Chen_yuazzy/article/details/80961735