（一）论文地址：

《DSSD : Deconvolutional Single Shot Detector》

Ps：这篇文章的第二作者就是大名鼎鼎的 $Wei Liu$ 大神，也是DSSD的基础《SSD: Single Shot MultiBox Detector》这篇文章的一作；

（二）解决的问题：

SSD的详解可以看我的这两篇博客：
SSD目标检测算法详解（一）论文讲解
 SSD目标检测算法详解（二）代码详解

相比于faster-rcnn在同一个特征图上采用不同大小的先验框进行目标的提取的方法，SSD算法采取：提取了不同尺度的特征图来做检测，大尺度特征图（浅层的特征图）可以用来检测小物体，而小尺度特征图（深层的的特征图）用来检测大物体；
在这里插入图片描述

但由于浅层的特征图对于图像特征的提取并不完全，所以SSD算法对小目标的检测依然存在不足；

为了提高小目标检测的精度，作者提出了DSSD，即反卷积SSD；

（三）DSSD 的核心思想：

为了提高对小目标的检测精度，作者提出了：

使用 $ResNet101$ 代替 $VGG-16$ 提取特征；
使用反卷积层增加上下文（context）的信息；
使用迁移学习（特别是在反卷积层）效果会更好；

从而大大增加了上下文信息，在对检测速度影响较小的同时，大大提升了目标检测的准确度；
在这里插入图片描述

（四）ResNet 的残差单元：

ResNet的核心思想是：

将本来回归的目标函数H(x)转化为F(x)+x，即F(x) = H(x) - x，称之为残差。

在训练时，我们将该单元目标映射（即要趋近的最优解）假设为F(x) + x，而输出为y+x，那么训练的目标就变成了使y趋近于F(x)。即去掉映射前后相同的主体部分x，从而突出微小的变化（残差），并融合上下文信息；
在这里插入图片描述
更具体的理解可以看我这一篇：
残差网络ResNet系列网络结构详解：从ResNet到DenseNet

（五） Prediction Module：

在这里插入图片描述
$Prediction$ $Module$ 指的是，将特征图输入到卷积层，输出每个特征点对应多个default box的类别向量和回归坐标；

$Prediction$ $Module$ 的几种变体如图所示：
在这里插入图片描述
其中（a）是SSD采用的 $Prediction$ $Module$ ，即使用单层卷积（ $3×3$ 卷积核大小）直接输出相应的 $Cls$ （类别向量，包括背景分类）和 $Loc Regress$ （回归坐标），实现代码如下：

def ssd_multibox_layer(self, inputs, class_num, ratio, size):

    num_anchors = len(size) + len(ratio)
    num_loc = num_anchors * 4
    num_cls = num_anchors * class_num

    # loc
    loc_pred = slim.conv2d(
        inputs, num_loc, [3, 3], activation_fn=None, scope='conv_loc')

    # cls
    cls_pred = slim.conv2d(
        inputs, num_cls, [3, 3], activation_fn=None, scope='conv_cls')

    loc_pred = tf.reshape(loc_pred, (-1, 4))
    cls_pred = tf.reshape(cls_pred, (-1, class_num))

    # softmax
    cls_pred = slim.softmax(cls_pred, scope='softmax')

    return loc_pred, cls_pred

变体（b）、（c）和（d）则是DSSD采用的 $Prediction$ $Module$ ，即在输出预测结果前，使用 $1×1$ 卷积核大小的卷积层和类似ResNet的残差结构，在不大量增加参数量和不改变感受野大小的前提下，进一步提取特征并融合上下文信息；

（六）Deconvolutional Module：

在这里插入图片描述
$Deconvolutional$ $Module$ 是DSSD的核心；

深层特征图的感受野比较大，语义信息表征能力强，但是特征图的分辨率低，几何信息的表征能力弱；浅层特征图的感受野比较小，几何细节信息表征能力强，虽然分辨率高，但是语义信息表征能力弱；

为了充分利用深层特征图和浅层特征图的有效信息，作者提出了 $Deconvolutional$ $Module$ ，即在使用浅层特征图（假设为 $2H×2W×D$ 大小）输入到 $Prediction$ $Module$ 之前，先使用反卷积层将下一层较深的特征图（ $H×W×D$ 大小）转换为相同大小（ $2H×2W×D$ ），将这两个特征图融合，作为 $Deconvolutional$ $Module$ 的输入；