Deeper and Wider Siamese Networks for Real-Time Visual Tracking(SiamDW)

Deeper and Wider Siamese Networks for Real-Time Visual Tracking(SiamDW,CVPR2019)

该篇论文通过大量实验发现,在Siamese系列的跟踪中,有这么几个因素对网络性能的影响比较大,分别是:感受野大小、网络步长、有无填充(Padding)、最后一层输出的特征图尺寸。

作者总结了Siamese网路用于跟踪时应该遵循的几个准则,作者根据自己的准则设计了CIR模块让网络可以变深,接着把它们应用到SiamFC、SiamRPN,表示为SiamFC+、SiamRPN+,并取得了SOTA的效果。

直接使用现有的功能强大的网络架构(如ResNet、Inception等)替换孪生网络中的AlexNet主干并不能带来性能的改善,甚至会在网络深度或宽度增加时导致性能大幅下降。作者认为其主要原因如下:

  • 作者认为神经元感受野变大之后,虽然特征的context会变大,但是提取到的特征区分度和定位精度都会降低,即减少了目标本身的局部信息和判别信息,同时感受野太大会导致feature map相邻像素点的overlap过大,即特征冗余性大;而感受野较小的话,又不能获得足够的context信息,特征抽象的层次不够。因此作者指出,感受野的大小与样本图像的大小有关,最好是样本图像的60%-80%。
  • 作者认为神经网络的填充导致了学习中的位置偏差。

在这里插入图片描述

从上表可以看出:

  • 步幅(STR):
    当网络步长(STR)从4或8增加到16时,网络性能显著下降(AlexNet和VGG的⑩③⑨,Incep和ResNet的②⑧⑨)。这说明Siamese Tracker更喜欢中级特征(步幅4或8),后者在目标定位上比高级特征(步幅≥16)更精确。
  • 感受野(RF):
    对于感受野(RF)的最大尺度,最佳的尺度范围较小。具体来说,对于AlexNet,它的范围是从87-8(Alex⑦)至87+16像素(Alex③);对于Incep-22,范围为91–16(Incep⑦) 至91+8(Incep③)像素。VGG-10和ResNet-17也表现出类似的现象。在这个情况下,最佳的感受野大小大约是输入图像 z 大小(91 vs 127)的60%~80%。
    在这个研究中,这个比率对于各种网络都是稳健的,并且对它们的结构是不敏感的,这说明RF的大小对于siamese框架中的特征嵌入是至关重要的。其根本原因是感受野RF决定了用于计算特征的图像区域。
    大的感受野覆盖了大量的图像背景,导致提取的特征对目标的空间位置不敏感。相反,小的感受野可能无法捕获对象的结构信息,因此它对匹配的区分性较差。因此,只有在一定尺寸范围内的RF才允许特征提取出物体的特征,其理想尺寸与样本图像的大小密切相关。
  • 输出特征大小(OFS):
    对于输出特征大小(OFS),可以观察到一个小的大小(OFS≤3) 不利于跟踪精度。这是由于小的feature maps缺乏对目标对象足够的空间结构描述,因此在图像相似性计算方面不够鲁棒。
  • 网络填充(PAD):
    从AlexNet和VGG⑤⑥、Incep和ResNet的④⑤,我们观察到网络填充对最终性能有很大的负面影响。Siamese网络提供成对的样本和搜索图像作为训练数据,并学习一个嵌入特征进行匹配。如果网络包含填充操作,则从原始样本图像加上传统(零)填充区域中提取样本图像的嵌入特征。不同的是,对于搜索图像的特征,一些特征仅从图像内容本身提取,而一些特征则从图像内容加上附加(零填充)区域(例如边界附近的特征)提取。因此,在搜索图像的不同位置出现的目标嵌入之间存在不一致性,导致匹配相似度比较下降。

依据上面的分析,总结出四个基本准则,以减轻结构因素对网络架构的负面影响:

  1. Siamese Tracker喜欢相对较小的网络步幅
  2. 输出特征的感受野应根据其与样本图像大小的比率来设置
  3. 在设计网络体系结构时,应将网络步长、接收野和输出特征尺寸作为一个整体来考虑。
  4. 对于一个全卷积的Siamese网络,处理两个网络流之间的感知不一致问题是至关重要的

新的模块Cropping-Inside Residual (CIR) Units:

  • CIR Unit:用一个 cropping operation 来增强 residual unit,即在特征相加完成后,加一个 crop 操作。这个 cropping 操作符移除了被 zero-padding signals 所影响的 feature。由于 bottleneck layer 的 padding size 是 1,仅仅最边缘的 features 被删除。这个简单的操作极大的移除了残差单元中的 padding-affected features。
  • Downsampling CIR (CIR-D) Unit:下采样残差单元也是网络设计中一个重要的构建模块。其用于降低 feature map 的空间大小,同时使得 feature channels 变为两倍。由于这个模块中也包含 padding,所以也采用 crop 操作。作者将卷积的步长,由 2 设置为 1。这些改变的关键点在于:确保仅由于padding引起的feature被删除,而内部模块的结构不变。
  • CIR-Inception and CIR-NeXt Units:作者也将这种结构用于构建 multi-branch structure, 确保其可以构建 wide 的网络。

总结:这篇文章是通过复现Siamese Tracking的文章,发现文章只利用了AlexNet等较浅的网络作为backbone,而在检测、分类等其余的任务中可以发现ResNet等提取特征能力远远强于AlexNet,因此作者用ResNet、Inception等更深更宽的backbone做实验,希望可以提升效果。但是又遇到了新的问题,效果不升反降,作者设计控制变量法做实验分析某些因素导致了效果的下降。从而有了后面的问题和解决方案。

猜你喜欢

转载自blog.csdn.net/weixin_48158964/article/details/131554168