文章侧重点

将单目标追踪中效果好的SiamRPN++作为基础，然后将其拓展到RGB-T追踪中。

针对双模态中的模态融合问题，SiamCDA分别设计了CA-MF模块融合RGB-TIR的模态特征；
针对融合RPN网络生成的K个anchor及其预测位置和置信分数，提出DAS模块挑选出最合适的那个anchor作为预测结果。

网络结构

在这里插入图片描述
如图所示，SiamCDA的网络结构主要有两个分支，模板处理分支和当前帧处理分支。具体的处理流程如下：

输入：第一帧的RGB-TIR对和当前帧的RGB-TIR对。
第一步：模态特征提取：与ＳｉａｍＲＰＮ＋＋的设置一致，这里ｂａｃｋｂｏｎｅ为ＲｅｓＮｅｔ５０，将后三段的特征图保留下来，用一个特征金字塔网络生成相同纬度的特征。如下图所示，分别得到第一帧的三阶段RGB特征、三阶段TIR特征和当前帧的三阶段ＲＧＢ特征、三阶段TIR特征。
第二步：多模态融合——CA-MF模块：用这样一个加权方式，还交叉把ＲＧＢ－ＴＩＲ的特征相加，最后生成一个融合的特征。第一帧的RGB特征、TIR特征和当前帧的特征、TIR特征分别这样融合，得到第一帧的三阶段融合特征和当前帧的三阶段融合特征。
第三步：Region Proposal网络生成k个anchor，并对其用分类分支和回归分支生成对应的响应图：这里的操作是，对于前面融合的结果：第一帧的三阶段融合特征和当前帧的三阶段融合特征，分别对三个阶段的融合特征应用Region Proposal网络生成k个anchor，然后用分类分支和回归分支生成对应的响应图。根据ＳｉａｍＲＰＮ＋＋中融合这三个阶段各自生成的响应图，得到一个总的响应图，包含（ｘ，ｙ，ｗ，ｈ，ｓｃｏｒｅ）。
第四步：选出最佳候选框：
１.　置信度超过０.３的候选框留下；
２.　通过非极大值抑制（ＮＭＳ）的候选框留下；
３.　通过尺度和纵横比惩罚、余弦窗惩罚，将置信分数最高的框作为“太子框”；
４.　如果此时留下的框个数只有１个了，即“太子框”为预测框；如果还有不止一个框，则：
　４.１　如果“太子框”与上一帧的框的交并比大于等于０.２，就选“太子框”为预测框；
　４.２　如果“太子框”与上一帧的框的交并比小于０.２，就从剩下的其它框，就选其它框中与上一帧的框的交并比大于等于０.７的框且置信度最高的那个。

训练策略

因为Ｓｉａｍｅｓｅ网络离线训练的部分多，非常依赖训练数据的大规模和丰富性。文中自己通过合成数据（根据ＲＧＢ图片、视频合成ＴＩＲ；根据ＴＩＲ图片、视频合成ＲＧＢ）建立了一个大规模数据集ＬＳＳ。整个模型的训练过程分为两阶段：

第一阶段：忽略热红外网络分支和多模态融合网络，构建单一模态的追踪网络：采用RGB追踪中的数据集：ＩｍａｇｅＮｅｔ　ＶＩＤ、Ｙｏｕｔｕｂｅ－ＢＢ、ＣＯＣＯ、ＩｍａｇｅＮｅｔ　Ｄｅｔ作为训练集；
第二阶段：ＲＧＢＴ训练：固定所有ＲＧＢ的处理分支的参数。在GTOT上测试时，训练集使用ＬＳＳ、ＲＧＢＴ２３４、ＫＡＩＳＴ；在ＲＧＢＴ２３４上测试时，训练集使用ＬＳＳ、ＧＴＯＴ、ＫＡＩＳＴ。

RGBT234结果（精度Precision Rate/成功率Success rate）

在这里插入图片描述

看看就完事，连２０１９年的ｍｆＤｉＭＰ都不太能打得过。可能只有强强可以。

RGB-T追踪——【Siamese】SiamCDA: Complementarity- and Distractor-Aware RGB-T Tracking

目录

文章侧重点

网络结构

训练策略

RGBT234结果（精度Precision Rate/成功率Success rate）

猜你喜欢