Introduction

常规卷积操作的感受域是固定的，但不同大小的目标应该需要不同大小的感受域，甚至是不规则的感受域。为此，论文提出两个模块来使CNN具备几何变换的建模能力：

deformable convolution，在常规的卷积中增加2D偏移值，可以将采样区域自由变形，如图1(d)。偏移值是可学习的，通过额外的卷积层获得，取决于输入的特征。
deformable RoI pooling，为RoI pooling中的每个bin添加一个偏移值做整体的移动，能够自适应不同形状目标的局部定位。同样，偏移值是可学习的，取决于输入特征和RoI区域。

Deformable Convolutional Networks

Deformable Convolution

2D卷积包含两个步骤，首先采样输入特征的规则区域 $\mathcal{R}$ ，然后求和采样值与权重 $w$ 间的乘积，区域 $\mathcal{R}$ 由卷积核大小和膨胀(dilation)决定，如上为 $3\times 3$ 、膨胀为1的卷积区域。

输出特征图 $y$ 中的点 $p_0$ 的值计算如公式1， $p_n$ 为 $\mathcal{R}$ 中所有采样点。

在可变性卷积中，使用偏移 $\{\Delta p_n | n=1,...,N \}$ 将区域 $\mathcal{R}$ 的每个点进行位移，公式1转换成了公式2

由于 $\Delta p$ 通常为小数，使用公式3的双线性插值计算偏移位置的值， $G(\cdot, \cdot)$ 为双线性插值权重， $q$ 为特征图 $x$ 上所有的点， $g(a, b)=max(0, 1-|a-b|)$

如图2所示，偏移特征图通过旁路的卷积层获得， $N$ 为主干的卷积核大小，对输入特征进行变形卷积时取偏移特征图上对应点的偏移值向量组合成完整的offsets。训练时，同时学习两条路径，对于偏移值，通过公式3进行梯度的回传。

Deformable RoI Pooling

RoI Pooling

对于输入特征图 $x$ 和RoI区域 $w\times h$ ，左上角坐标为 $p_0$ ，RoI pooling将区域分为 $k\times k$ 个bin，输出大小 $k\times k$ 的特征图

对于序号为 $(i,j)$ 的bin，输出的计算如公式5， $n_{i,j}$ 为bin中的像素总数，范围为 $\lfloor i \frac{w}{k} \rfloor \le p_x < \lceil (i+1) \frac{w}{k} \rceil$ 和 $\lfloor j \frac{h}{k} \rfloor \le p_y < \lceil (j+1) \frac{h}{k} \rceil$

类似于公式2，可变形RoI pooling采用偏移值 $\{ \Delta p_{ij} | 0 \le i,j < k \}$ 对bin进行整体移动，输出计算如公式6，由于 $\Delta p_{ij}$ 是小数，同样需要公式3和公式4进行双线性插值计算

可变形RoI pooling的逻辑如图3，偏移值通过旁路卷积层获得，旁路的输入为RoI区域池化后的特征，接一个fc层输出归一化的偏移值 $\Delta \hat{p}_{ij}$ ，与RoI的尺寸无关，然后根据RoI区域大小转换为偏移值 $\Delta p_{ij}=\gamma \cdot \Delta \hat{p}_{ij} \circ (w, h)$ ， $\gamma=0.01$ 为预设的幅值，偏移值在RoI区域内所有channel共用，取对应的位置。

Position-Sensitive (PS) RoI Pooling

可变形PS RoI pooling遵循RFCN的全卷积理念，先用一个卷积层获得channel为 $2k^2(C+1)$ 的偏移特征图，单图大小与主干的score map一样，然后通过PS RoI pooling得到归一化的偏移值 $\Delta \hat{p}_{ij}$ ，然后根据RoI大小转换为最终的偏移值 $\Delta p_{ij}$ 。在实际实现中，一般会在PS RoI Pooling后接一个输出为 $2N$ 全连接层，与可变形RoI pooling类似。

Deformable Convolution/RoI Pooling Backpropagation

公式2可变形卷积的偏移值 $\Delta p_n$ 的梯度就算如公式7， $\frac{\partial G(q,p_0+p_n+\Delta p_n)}{\partial \Delta p_n}$ 由公式4计算， $\Delta o_n$ 是2D的， $\partial \Delta p_n$ 实际表示 $\partial \Delta p_n^x$ 和 $\partial \Delta p_n^y$

可变形RoI pooling的偏移值计算如公式8，而归一化偏移值 $\Delta \hat{p}_{ij}$ 则可以通过计算 $\Delta p_{ij}=\gamma \cdot \Delta \hat{p}_{ij} \circ (w, h)$ 的导数获得。

Understanding Deformable ConvNets

如图5所示，可变形卷积将原本固定的感受域根据目标自适应地调整，随着可变形卷积地叠加，高维像素点对应的感受域将会有很大的差异。

图6为图5中高层像素对应的低维像素的对应图，可以看到高层像素的感受域大都跟物体的位置相关。

图7为RoI区域对应的bin的位置，可以看到bin移动到了与物体更相关的位置。

Experiments

Ablation Study

Deformable Convolution

表1测试了在不同的位置加入可变形卷积的效果，不同的网络的效果不一致，整体都是可以提升的。而表2则是统计了不同大小物体的平均偏移值，偏移值跟物体大小相关，而背景的偏移介于中大物体之间，说明背景需要更大的感受域进行识别。表3与空洞卷积进行了对比，更大的膨胀值能有更好的性能，说明原来的感受域太小了，而不同的任务最优的膨胀值不太一样，说明可变形卷积是有存在意义的。