论文全名：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking（MDNet）

论文摘自CVPR 2016，由Hyeonseob Nam、Bohyung Han撰写。

摘要

训练：（1）使用大量视频训练CNN；（2）网络由共享层和域特定层（二分类）组成。通过迭代训练网络中的每个域，获得共享层中的通用目标表示。

测试：（1）在一个视频序列中，作者将预训练CNN中的共享层与新的二分类层（在线更新）组合来构建新网络。（2）对于在线更新，对之前目标位置周围进行随机采样获得候选窗，通过评估来跟踪。

1 前言

挑战：

具有完全不同特征的视频序列来学习一个统一的CNN算法表示。其中：（1）单个序列的目标类型不同；（2）算法受到序列中特定的变化：遮挡，变形，光照条件变化，运动模糊等；（3）相同类型的对象在一个序列中视为目标，而在另一个中可能就是背景。

作者提出：Multi-Domain Network（MDNet）

训练：（1）每个序列作为单独的Domain（单独训练）

（2）在网络的最后，有一个Domain-specific层（也用于共享学习）的分支进行二分类，

（3）共享从之前层中的所有序列信息用于学习，共享层在每次迭代中都会更新。

特点：MDNet与分类任务的网络（AlexNet、VGG）相比，网络层数很少。

测试：（1）删掉在训练阶段中使用的二分类层的所有分支，构建新的分支计算其目标分数。

（2）在线微调共享层中的新的分类层和全连接层。

（3）对目标长期和短期变化进行建模，并且在学习过程中结合了难分样本挖掘（hard negative mining）思想。

主要贡献：

•训练：提出了一个基于CNN的多领域学习框架，它将域无关的与Domain-specific域的信息分开，以有效地捕获共享表示。

•测试：预训练的CNN在序列的上下文中在线更新，并自适应地学习Domain-specific域的信息。

•评估：在OTB2015与VOT2014表现出色。

本文的其余部分安排如下。我们首先回顾第2节中的相关工作，并在第3节讨论我们用于视觉跟踪的多领域学习方法。第4节描述了我们的在线学习和跟踪算法，第5节展示了两个跟踪基准数据集中的实验结果。

2.相关工作

2.1 跟踪算法

（1）生成方法（生成目标外观建模）：稀疏表示，密度估计和增量子空间学习；

（2）判别方法（区分目标和背景建模）：MIL，TLD检测跟踪学习，在线提升，结构化输出SVM 等。

（3）相关滤波算法：MOSSE，KCF，DSST ，MUSTer 。

2.2 卷积神经网络

（1）AlexNet：通过使用大规模数据集和高效的GPU实现训练深度CNN；（2）R-CNN：将CNN应用于训练数据稀缺的目标检测任务。（3）CNN在跟踪之前已经进行了离线训练并且之后被修复。（4）DeepTrack提出了一种基于CNN池的在线学习方法，但缺乏训练数据导致准确性不好。（5）最近的一些方法[39,20]在大规模数据集上预训练CNN，但分类和跟踪之间存在差异，该表示不是很有效。

作者提出的算法用大规模跟踪数据来预训练CNN，结果很好。

2.3 Multi-Domain学习

MDNet的预训练CNN属于Multi-domain学习：训练数据源自多个域，且域信息被并入学习过程中。

3.MDNet训练

本节描述了我们的CNN架构和多域学习方法，以获得视觉跟踪的与域无关的表示。

3.1 网络架构

MDNet由共享层和K个Domain-specific层组成。黄色表示正样本，蓝色表示负样本

网络架构如上图所示：

输入：107×107×3

架构：

三个卷积层（conv1-3）	两个全连接层（fc4-5）	一个（K分支）全连接层（fc61-fc6K）
与VGG-M架构（data:ImageNet）相同	与ReLU相同，防止过拟合	softmax交叉熵损失的二分类层
隐藏层（共享层）		Domain-specific层（区分目标与背景）

特点：

（1）视觉跟踪仅区分目标和背景两个类，模型复杂性小。

（2）选择的网络层数较少，原因：随着网络的深入，空间信息会逐渐消失。

（3）视觉跟踪中的目标通常很小，从而减小了网络的深度。

（4）训练和测试是在线进行的，当使用更大的网络时，算法不太准确并且变得更慢。

3.2 学习算法

目标：在任意域中训练Multi-domain CNN来消除对目标和背景变化

域的共同特征：对照明变化、运动模糊、尺度变化的鲁棒性等

实施方式（将与域无关的信息与Domain-specific层分离出）：CNN由随机梯度下降（SGD）方法训练。（1）对于Domain-specific层，在第k次迭代中，由第（kmod K）序列的一小批量训练样本来更新全连接层网络，直到网络收敛或达到预定义的迭代数；（2）对于共享层，对与域无关的信息进行建模，获得通用特征表示。

4.MDNet测试

测试阶段，将训练阶段的Domain-specific层（fc61-fc6K）替换为单个层（fc6），在线调整共享层和Domain-specific层。

4.1 在线更新

算法更新：Long-term update（长时间收集的目标的正样本）+Short-term update（检测到潜在目标跟踪失败【目标被误认为背景】时使用短期的正样本）。对于负样本：用Short-term时的负样本。注意：通过目标外观变化速度执行更新。

跟踪：在之前目标周围采N个候选：，用网络来评估，得到正分数和负分数。找到x*满足：（1）。

4.2 提取负样本

在测试时，检测出目标的方法为：难分负样本挖掘（hard negative mining）思想

在序列Bolt2（第一行）和Doll（第二行）中采用 **难分负样本挖掘算法**来识别训练示例。
红色框代表正样本，蓝色框代表负样本

实施方式：在小批量（包括正样本与难分负样本）选取中，采用难分负样本挖掘思想，其中， $M^{-}_{h}$ 样本是由测试中的负样本 $M^{-} (=1024)\left ( \gg M^{-}_{h} \right )$ 产生，并选择 $M^{-}_{h}$ 中分数最大的作为难分负样本。