主要改进

DSSD相比于SSD主要有两方面的改进：

1.使用了Residual-101代替了VGG，减少参数的同时加深模型的深度，可以提高检测的正确率。
2.在SSD特征层的末尾添加deconvolution layers，集成上下文的信息，提升低层的语义信息，提高对小物体的检测正确率。
3.使用K-means 方法 setting prior box aspect ratio

提出的动机

大多数的目标检测方法，包括SPPnet，Fast R-CNN，Faster R-CNN ， RFCN和YOLO，使用ConvNet的最顶层来学习在不同尺度下检测对象。虽然功能强大，但它利用单个层建模为所有可能的对象比例和形状带来了很大的负担。

有很多方法提出了利用ConvNet网络中的多层来提高检测效果，这要有两种方法。

第一组方法结合了ConvNet中不同层的feature map，并使用组合feature map进行预测。例如ION，HyperNet。然而，组合特征映射不仅显著增加了模型的内存占用，而且降低了模型的速度。
另一组方法使用ConvNet中的不同层用于预测不同尺度的物体。例如SSD，MS-CNN。然而，为了更好地检测小对象，这些方法需要利用小接受域和密集特征映射的浅层信息，这可能会导致小对象性能低下，因为浅层对对象的语义信息较少。

通过使用deconvolution layers和skip connections，可以在密集(deconvolution)特征映射中注入更多的语义信息，从而帮助预测小对象。该方法不仅解决了卷积神经网络中特征图分辨率下降的问题，而且为预测提供了上下文信息。

Deconvolutional SSD

从下图可以看出，Deconvolutional SSD是一个非对称的网络结构，之所以没有使用很深的对称结构的原因有两个：

首先，检测是视觉中的基本任务，因此，速度是一个重要的因素。构建对称网络意味着推理时间将增加一倍。这不是我们在这个快速检测框架中想要的。
其次，目前还没有针对ILSVRC CLS-LOC dataset的分类任务训练的decoder预训练模型，因为分类提供的是单个完整的图像标签，而不是检测中的局部标签。由于我们的decoder解码器没有预先训练好的模型，不能利用解码层的transfer learning转移学习，因此解码层必须从随机初始化开始训练。deconvolution layers的一个重要方面是计算成本，特别是在除deconvolution layers过程之外还从前一层添加信息时。

Prediction module

MS-CNN指出，改进每个任务的子网络可以提高准确率。按照这个原则，作者为每个预测层添加一残差块。这一部分跟SSD合在一起预测非常不同。对于不同的分辨率的检测区别开来。

Deconvolution Module

Deconvolution Module的灵感来自Pinheiro等人，他们提出，用于细化网络的Deconvolution Module的分解版本与更复杂的Deconvolution Module具有相同的准确度，而且分解版本的网络将更加高效。

作者对Pinheiro等提出的方法进行以下修改：

首先，在每个卷积层之后添加一个batch normalization layer批规格化层。
其次，使用经过训练的 deconvolution layer而不是bilinear upsampling双线性上采样。
最后，测试了不同的组合方法:element-wise sum元素相加和element-wise product元素乘积。实验结果表明，element-wise product元素乘积的精度最高。

使用K-means 方法 setting prior box aspect ratio

在原始的SSD模型中，长宽比为2和3的boxes从实验中被证明是有用的。为了了解训练数据(PASCAL VOC 2007和2012 trainval)中boxes的长宽比，以方框面积平方根为特征，对训练盒进行K-means聚类。因为SSD框架将输入的大小调整为正方形，并且大多数训练图像更宽，所以大多数边界框更高也就不足为奇了。根据这张表，我们可以看到大多数的方框比率都在1-3之间。因此，作者决定在每个预测层增加一个纵横比1.6，和使用(1.6,2.0,3.0）。

Result

下面这张图可以看车prediction module ，deconvolutional module 对结果的改进。

论文还提供了PASCAL VOC and COCO不同数据集的结果，这里不再细说。

[深度学习]Object detection物体检测之DSSD(10)