SiamFC

SiamFC的基本结构如下：
即，将目标与待搜索区输入到孪生网络中，分别获得对应feature map，然后做互相关，就是将目标的feature map 作为卷积核，与之作卷积，获得响应图(heatmap)
在这里插入图片描述
缺点：

应该找到与模板类似的候选对象，并且应该将正确的对象与所有这些候选对象区分开来。
严重遮挡或背景杂乱的物体会导致意想不到的跟踪失败。

所以需要为目标模板找到关键部位，即注意力机制。

Visual Object Tracking by Hierarchical Attention Siamese Network

1. 关键部位搜索：

在这里插入图片描述

设置占目标面积 $1 / 4$ 的mask, 通过滑窗，生成N个masked object.
将原 object 和 masked object 经过简单的特征变换，得到 $HOG(O) , HOG(O_{mask(i)}), i=1,2...N$
分别计算 $H O G (O)$ 与N个 $HOG(O_{mask(i)})$ 的内积，选取使得内积值最小的mask, 即该mask包含了object中最重要的特征，记该mask为关键部位。

2. 注意力权值计算

在得到对象的关键部分后，我们用它来计算匹配的注意权重。显然，关键部分位置的权重要高，背景的权重要低。
除此之外，靠近关键部位的区域应该有更多的权重。这是因为在进行相似匹配时，要突出关键部分，建立更多的判别特征，放大其比例。
在这里插入图片描述
$f (C), f (E), a n d f (S)$ 分别为目标关键部位、目标、待搜索区的输出特征

计算流程

将目标与关键部分经过卷积变换后，再进行互相关操作，得到注意权重，即响应图(heatmap)。 $c o r r (f (C), f (E))$
将权重heatmap与目标相结合，通过增加注意部分的匹配结果，减少不重要部分的匹配结果来提高匹配性能。 $c o r r (f (C), f (E)) \cdot f (E)$
最后，将注意特征输出到搜索区域中进行后续定位
$R = c o r r (c o r r (f (C), f (E)) \cdot f (E), f (S))$

整体架构