GradNet: Gradient-Guided Network for Visual Object Tracking阅读笔记

论文链接:PDF

总结:利用梯度信息去更新siamese tracker中的模板,使用了一种新的训练方式,使得网络更关注于梯度信息,防止过拟合

 图片的梯度信息可以反映目标的变化(类似DAT,DAT中有理论解释)

网络框架:

可以看到,网络主要有两个分支,下面的一个分支用来提取search region的特征,上面一路提取target的特征,并进行模板更新。

给定一个图像对:, 希望对模板进行优化,得到优化的模板, 能够更好的从搜索区域中找出目标。首先,获取初始的模板特征:

 其中, f2()是两层卷积层,U1是框架图中所示的一个子网络,是U1的参数

计算得分图:

 计算loss:

 Y是标签

将loss对 求导,将其加到上去,更新目标的特征:

得到新的模板,并计算得分图:

 

loss:

另外,作者认为现有的优化方法,不能很好的优化梯度,而是更关注于目标特征的相似性。因此,使用了一种新的模板生成的方式,去训练优化网络。

 左边的是一般的做法,右边的是本文使用的模板生成的方法,使用一个模板在来自不同视频的搜索域上搜索目标,使得网络更关注于梯度,而不是外观特征,并能防止过拟合。

猜你喜欢

转载自www.cnblogs.com/yangruicvpr/p/11731204.html