ABSTRACT

DETR最近被提出，以消除在目标检测中需要许多手工设计的组件，同时证明了良好的性能。然而，由于transformer注意模块在处理图像特征图时的限制，其收敛速度慢，特征空间分辨率有限。为了缓解这些问题，我们提出了Deformable DETR，它的注意模块只关注一个目标周围的一小部分关键采样点。Deformable DETR可以获得比DETR（特别是在小物体上）更好的性能，在训练时间少10×的时期。在COCO基准测试上进行的大量实验证明了我们的方法的有效性。代码已在https://github.com/fundamentalvision/Deformable-DETR上发布。

1 INTRODUCTION

现代对象探测器使用了许多手工制作的组件(Liuetal.，2020)，例如，锚点生成、基于规则的训练目标分配、非最大抑制(NMS)后处理。它们并不是完全的端到端化的。最近，Carion等人（2020）提出了DETR，以消除此类手工组件的需求，并构建了第一个完全端到端对象检测器，实现了非常具竞争力的性能。DETR利用了一个简单的结构，通过结合卷积神经网络(CNNs)和transformer(Vaswanietal.，2017)编码器-解码器。他们利用transformer的多功能和强大的关系建模能力来取代手工制作的规则。

尽管DETR的设计有趣和良好的性能，但它有自己的问题：（1）它需要比现有的目标检测器更长的训练时间来收敛。例如，在COCO(Linetal.，2014)基准上，DETR需要500个周期来收敛，比Faster R-CNN慢约10到20倍(Renetal.，2015)。（2）DETR在检测小物体方面的性能相对较低。现代物体探测器通常利用多尺度特征，即从高分辨率特征地图中检测到小物体。同时，高分辨率的特征图导致了DETR不可接受的复杂性。上述问题主要归因于transformer组件在处理图像特征图中的不足。在初始化时，注意模块对特征图中的所有像素施加了几乎一致的注意权重。长时间的训练周期是为了学习注意权重，以关注稀疏的有意义的位置。另一方面，transformer编码器中的注意权值计算是二次计算w.r.t.像素数。因此，处理高分辨率的特征映射具有非常高的计算和内存复杂性。

在图像领域，可变形卷积(Daietal.，2017)是一种关注稀疏空间位置的强大而有效的机制。它很自然地避免了上述问题。而它缺乏元素关系建模机制，这是DETR成功的关键。

在本文中，我们提出了可变形的DETR，它缓解了DETR的缓慢收敛和高复杂性的问题。它结合了可变形卷积的稀疏空间采样和transformer的关系建模能力。我们提出了可变形的注意模块，它关注一小组采样位置，作为所有特征图像素中突出的关键元素的预滤波器。该模块可以很自然地扩展到聚合多尺度的特征，而不需要FPN的帮助(Linetal.，2017a)。在可变形的DETR中，我们利用（多尺度）可变形的注意模块来代替transformer注意模块处理特征图，如图1所示。

可变形的DETR为我们利用端到端对象检测器的变体提供了可能性，这要归功于它的快速收敛性、计算量和内存效率。我们探索了一种简单而有效的迭代边界盒细化机制来提高检测性能。我们还尝试了一个两阶段的可变形DETR，其中区域建议也由一个可变形DETR生成，并进一步输入解码器进行迭代边界盒细化。

在COCO(Linetal.，2014)基准上进行的大量实验证明了我们的方法的有效性。与DETR相比，可变形的DETR可以在较少训练周期10×的情况下获得更好的性能（特别是在小物体上）。提出的两级变形DETR变体可以进一步提高性能。代码可以在https://github.com/fundamentalvision/Deformable-DETR获得

2 RELATED WORK

有效的注意机制。transformer(Vaswanietal.，2017)涉及自我注意和交叉注意机制。transformer最为人所知的问题之一是在大量的关键元素数下的高时间和内存复杂性，这在许多情况下阻碍了模型的可伸缩性。最近，人们为解决这个问题做出了许多努力(Tayetal.，2020b)，在实践中可以大致分为三类。

第一类是在keys上使用预定义的稀疏注意模式。最直接的范例是将注意力模式限制为固定的本地窗口。大多数工作（刘等，2018a；帕玛等，2018；儿童等，2019；黄等，2019；何等，20109；王等，2020a；胡等，2019；拉马钱德兰等，2019；邱等人，2019；贝尔塔吉等人，2020年；安斯利等人，2020年；Zaheer等人，2020年）遵循这一范式。虽然将注意力模式限制在一个局部邻域可以降低复杂性，但它会丢失全局信息。作为补偿，Child等人（2019年）；Huang等人（2019年）；Ho等人（2019年）；Wang等人（2020年a）以固定间隔关注关键元素，以显著增加keys上的接受域。Beltagy等人（2020年）；Ainslie等人（2020年）；Zaheer等人（2020年）允许少量特殊令牌访问所有关键元素。Zaheer等人（2020年）；Qiu等人（2019年）还添加了一些预先固定的稀疏注意模式，以直接关注遥远的关键元素。

第二类是学习依赖于数据的稀疏注意。Kitaev等人（2020）提出了一种基于局部敏感哈希(LSH)的注意力，该方法将queries和keys都散列到不同的箱子中。Roy等人（2020年）也提出了类似的想法，其中k-means可以找出了最相关的密钥。Tay等人(2020a)学习块级稀疏注意的块排列。

第三类是探索自我注意中的低等级性质。Wang等人(2020b)通过对尺寸维度而不是通道维度的线性投影来减少keys的数量。卡塔罗普洛斯等人（2020年）；乔罗曼斯基等人（2020年）通过核化近似重写了自注意的计算。

在图像领域，有效注意机制的设计（如Parmar等（2018）；Child等（2019）；Huang等（2019）；Ho等（2019）；Wang等（2020a）；Hu等（2019）；拉马钱德兰等（2019））仍限于第一类。尽管理论上降低了复杂性，但拉马钱德兰等人（2019）；Hu等人（2019）承认，由于内存访问模式的内在限制，这些方法的实现速度比具有相同flops的传统卷积要慢得多（至少要慢3×）。

另一方面，如Zhu等人（2019a)所讨论的，存在卷积的变量，如可变形卷积(Dai等人，2017；Zhu等人，2019b)和动态卷积(Wu等人，2019），也可以视为自我注意机制。特别是，可变形卷积在图像识别上比transformer自注意更有效。同时，它也缺乏元素关系建模机制。

我们提出的可变形注意模块是受到可变形卷积的启发，属于第二类。它只关注从查询元素的特征预测的一小组固定的采样点。与Ramachandran等人（2019）不同；Hu等人（2019），在相同的流量下，可变形的注意只是比传统的卷积略慢。

Multi-scale Feature Representation for Object Detection. 目标检测的主要困难之一是要在截然不同的尺度上有效地表示目标。现代的物体探测器通常利用多尺度的特性来适应这一点。作为开创性的工作之一，FPN(Linetal.，2017a)提出了一种自上而下的路径来结合多尺度特征。PANet(Liuetal.，2018b)进一步在FPN的顶部增加了一个自下而上的路径。Kong等人（2018）通过全球注意力操作结合了所有尺度的特征。Zhao等人（2019）提出了一种u形模块来融合多尺度特征。最近，NAS-FPN(Ghiasi等人，2019年)和Auto-FPN(Xu等人，2019年)被提出通过神经结构搜索自动设计跨尺度连接。Tan等人（2020）提出了BiFPN，这是PANet的重复简化版本。我们提出的多尺度可变形注意模块可以通过注意机制自然地聚合多尺度特征图，而无需借助这些特征金字塔网络。

3 REVISITING TRANSFORMERS AND DETR

Multi-Head Attention in Transformers. transformer(Vaswanietal.，2017)是一种基于机器翻译注意机制的网络架构。给定一个queries（例如，输出句子中的目标词）和一组keys（例如，输入句子中的源词），多头注意模块根据度量查询键对的兼容性的注意权重自适应地聚合关键内容。为了使模型聚焦于来自不同表示子空间和不同位置的内容，将不同注意头的输出与可学习的权值线性聚合。让q∈Ωq索引一个具有表示特征的queries，让k∈Ωk索引一个具有表示特征的keys，其中C是特征维度，Ωq和Ωk分别指定queries和keys的集合。然后计算出多头注意特征

其中m索引注意头，和是可学习的权重(默认为Cv=C/M)。注意权重被归一化为，其中也是可学习的权重。为了消除不同空间位置的歧义，表示特征 $z_{q}$ 和 $x_{k}$ 通常是元素内容和位置embeding的串联/求和。

关于transformer，有两个已知的问题。一是transformer在收敛之前需要很长时间的训练计划。假设keys和keys的数量分别为 $z_{q}$ 和 $N_{k}$ 。通常，在适当的参数初始化下， $U_{m}z_{q}$ 和 $V_{m}x_{k}$ 遵循均值为0、方差为1的分布，当较大时，注意权重为。它将导致输入特性的模糊梯度。因此，需要较长的训练计划，以便注意力权重可以集中在特定的key上。在图像领域，keys通常是图像像素， $N_{k}$ 可能非常大，收敛很繁琐。

另一方面，多头注意力的计算和内存复杂度可能非常高。等式的计算复杂度是。在图像域中，queries和keys都是像素，，复杂度由第三项控制，如。因此，多头注意模块的复杂度随特征图的大小呈二次增长。

DETR. 建立在transformer编码器-解码器架构上，结合基于集合的匈牙利损失，通过二部匹配迫使对每个地面真实边界盒进行独特的预测。我们简要地回顾了网络架构如下。

给定由CNN主干提取的输入特征映射(例如，ResNet(He等人，2016))，DETR利用标准的transformer编码器-解码器架构将输入特征映射转换为一组对象查询的特征。在对象查询特征（由解码器产生）的基础上，添加了一个3层的前馈神经网络(FFN)和一个线性投影作为检测头。FFN作为回归分支来预测边界框坐标，其中编码归一化的框中心坐标，框的高度和宽度（相对于图像大小）。线性投影作为分类分支，产生分类结果。

对于DETR中的Transformer编码器，queries和keys都是特征图中的像素。输入的是ResNet特征映射（具有编码的位置embeding）。设H和W分别表示特征图的高度和宽度。自注意的计算复杂度为，它随着空间大小的增大呈二次增长。

对于DETR中的Transformer解码器，输入包括来自编码器的特征映射，以及N个由可学习的位置embeding表示的对象查询(例如，N个=100)。在解码器中有两种类型的注意模块，即交叉注意模块和自我注意模块。在交叉注意模块中，对象查询从特征映射中提取特征。查询元素是对象查询的元素，而关键元素是来自编码器的输出特性映射的元素。在它中，和交叉注意的复杂性为。复杂性随特征图的空间大小呈线性增长。在自注意模块中，对象查询相互交互，从而捕获它们之间的关系。查询和关键元素都是对象查询。其中，，以及自注意模块的复杂性为。对于中等数量的对象查询，其复杂性是可以接受的。

DETR是一个有吸引力的目标检测设计，它消除了许多手工设计的组件。然而，它也有自己的问题。这些问题主要归因于变压器在处理图像特征图作为关键元素时的注意力不足：（1）DETR在检测小物体方面的性能相对较低。现代的物体探测器使用高分辨率的特征图来更好地检测小物体。然而，高分辨率的特征图会导致DETR的变压器编码器中的自注意模块具有不可接受的复杂度，它与输入特征图的空间大小具有二次复杂度。(2)与现代目标探测器相比，DETR需要更多的训练时代来收敛。这主要是因为处理图像特征的注意模块难以训练。例如，在初始化时，交叉注意模块在整个特征图上几乎是平均注意的。而在训练结束时，注意力地图被学习得非常稀疏，只关注物体的末端。DETR似乎需要很长的训练计划来学习注意力地图中如此大的显著变化。

4 METHOD

4.1 DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

Deformable Attention Module. 在图像特征图上应用transformer关注的核心问题是，它将查看所有可能的空间位置。为了解决这个问题，我们提出了一个可变形的注意模块。受可变形卷积的启发(Daietal.，2017；Zhu等人，2019b)，可变形注意模块无论特征图的空间大小如何，都只关注参考点周围的一小组关键采样点，如图2所示。通过为每个查询只分配少量固定数量的键，可以缓解收敛性和特征空间分辨率的问题。

给定一个输入特征映射，让q索引一个具有内容特征 $z_{q}$ 和一个二维参考点 $p_{q}$ 的查询元素，计算可变形注意特征

其中，m表示注意头，k表示采样keys，K为总采样key数(KHW)。和分别表示第m个注意头部中第k个采样点的采样偏移量和注意权重。标量注意权值在[0,1]范围内，由归一化。是具有无约束范围的二维实数。由于是分数的，在Dai等人（2017）中应用了双线性插值。和都是通过在查询特征 $z_{q}$ 上的线性投影得到的。在实现中，查询特征 $z_{q}$ 被馈给一个3MK信道的线性投影算子，其中前2MK信道编码采样偏移，其余MK信道被馈给一个softmax算子以获得注意权值。

可变形注意模块被设计用于处理卷积特征图作为keys。设 $N_{q}$ 为queries的数量，当MK相对较小时，可变形注意模块的复杂度为(详见附录A.1)。当应用于DETR编码器时，其中，复杂度变为，与空间大小呈线性复杂度。当它作为DETR解码器中的交叉注意模块应用时，其中 $N_{q}$ =N(N为对象查询的数量)，复杂度变为，这与空间大小HW无关。

Multi-scale Deformable Attention Module. 大多数现代目标检测框架都受益于多尺度特征图(Liuetal.，2020)。我们提出的可变形注意模块可以自然地扩展到多尺度特征映射。

设为输入的多尺度特征映射，其中。设为每个queries的参考点的归一化坐标，则应用多尺度可变形注意模块为

其中，m表示注意头，l表示输入特征水平，k表示采样点。和分别表示第1个特征水平和第m个注意头的第k个采样点的采样偏移量和注意权值。标量注意权值用进行归一化。在这里，我们使用归一化坐标来实现清晰的比例公式，其中归一化坐标（0,0）和（1,1）分别表示左上角和右下角的图像拐角。方程3中的函数将归一化坐标重新缩放到第1级的输入特征图。多尺度可变形注意与之前的单尺度版本非常相似，除了它从多尺度特征图中采样LK点，而不是从单尺度特征图中采样K个点。

当L=1、K=1和被固定为单位矩阵时，所提出的注意模块将退化为可变形卷积(Daietal.，2017)。可变形卷积是为单尺度输入设计的，只关注每个注意头的一个采样点。然而，我们的多尺度可变形注意从多尺度输入中观察多个采样点。所提出的（多尺度）可变形注意模块也可以被认为是transformer注意力的一种有效变体，其中由可变形采样位置引入了预滤波机制。当采样点穿过所有可能的位置时，所提出的注意模块等效于transformer的注意力。

Deformable Transformer Encoder. 我们用所提出的多尺度可变形注意模块来代替DETR中的transformer注意模块处理特征映射。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中，我们从ResNet(Heetal.，2016)阶段的输出特征图中提取（通过1×1卷积转换），其中 $C_{l}$ 的分辨率比输入图像低 $2^{l}$ 。最低分辨率的特征图 $x^{l}$ 是通过最后C5阶段的3×3步2卷积获得的，记为C6。所有的多尺度特征图都是C=256通道。需要注意的是，我们没有在FPN(Linetal.，2017a)中使用自上而下的结构，因为我们提出的多尺度可变形注意力本身可以在多尺度特征图之间交换信息。多尺度特征图的构造也见附录A.2。第5.2节的实验表明，添加FPN并不会提高性能。

在编码器中应用多尺度可变形注意模块时，输出结果为与输入端具有相同分辨率的多尺度特征映射。关键元素和查询元素都是来自多尺度特征图的像素。对于每个查询像素，参考点是其本身。为了识别每个查询像素所在的特征级别，除了位置embeding外，我们还在特征表示中添加了一个尺度级embeding，表示为。与具有固定编码的位置嵌入不同，尺度级嵌入{el}Ll=1是随机初始化并与网络联合训练的。

Deformable Transformer Decoder. 解码器中存在交叉注意和自我注意模块。这两种类型的注意模块的查询元素都是对象查询的。在交叉注意模块中，对象查询从特征映射中提取特征，其中的关键元素是来自编码器的输出特征映射。在自注意模块中，对象查询相互交互，其中keys是对象查询。由于我们提出的可变形注意模块是用来处理卷积特征图作为keys的，所以我们只将每个交叉注意模块替换为多尺度可变形注意模块，而保持自注意模块不变。对于每个对象查询，参考点 $\hat p^{q}$ 的对象查询embeding中可以通过一个可学习的线性投影和一个s型函数来预测参考点 $\hat p^{q}$ 的二维归一化坐标。

由于多尺度可变形注意模块提取参考点周围的图像特征，我们让检测头预测边界框作为相对偏移w.r.t.参考点可进一步降低优化难度。参考点被用作box中心的初始猜测。检测头预测相对偏移量w.r.t.参考点。详见附录A.3。这样，学习到的解码器注意力与预测的边界框有很强的相关性，这也加速了训练的收敛。

通过将DETR中的变形注意模块替换为变形注意模块，建立了一种高效、快速收敛的检测系统，称为Deformable DETR（见图1）。

4.2 ADDITIONAL IMPROVEMENTS AND VARIANTS FOR DEFORMABLE DETR

可变形的DETR为我们利用各种端到端对象检测器提供了可能性，这要归功于它的快速收敛、计算和内存效率。由于空间有限，我们在这里只介绍这些改进和变体的核心思想。实施细节见附录A.4。

Iterative Bounding Box Refifinement. 这是受到光流估计中开发的迭代改进的启发(Teed&Deng，2020)。建立了一种简单有效的迭代边界框细化机制，以提高检测性能。在这里，每个解码器层根据上一层的预测来细化边界框。

Two-Stage Deformable DETR. 在原始的DETR中，解码器中的对象查询与当前图像无关。受两阶段目标探测器的启发，我们探索了可变形DETR的一种变体，用于生成区域建议作为第一阶段。生成的区域建议将被输入解码器作为对象查询以进一步细化，形成一个两阶段可变形的DETR。

在第一阶段，为了实现高召回率的建议，多尺度特征图中的每个像素都将作为一个对象查询。然而，直接将对象查询设置为像素会给解码器中的自注意模块带来不可接受的计算和内存成本，其复杂度随着查询的数量呈二次增长。为了避免这个问题，我们去掉了解码器，并形成了一个仅限编码器的可变形的DETR，用于区域提案的生成。在它中，每个像素被分配为一个对象查询，它直接预测一个边界框。得分最高的边界框被选为区域提案。在将区域提案提交到第二阶段之前，不应用NMS。

5 EXPERIMENT

Dataset. 我们在COCO 2017数据集上进行了实验(Linetal.，2014)。我们的模型在训练集上进行训练，并在val集和测试开发集上进行评估。

Implementation Details. ImageNet(Deng等人，2009)预先训练的ResNet-50(He等人，2016)被用作backbone。在没有FPN的情况下提取多尺度特征图(Lin等人，2017a)。M=8和K=4默认设置为可变形的注意。可变形变压器编码器的参数在不同的特征级别之间共享。其他超参数设置和训练策略主要遵循DETR(Carionetal.，2020)，除了使用损失权重为2的焦点损失(Linetal.，2017b)进行边界框分类，对象查询的数量从100个增加到300个。我们还报告了DETR-DC5的性能，以进行公平的比较，记为DETR-DC5+。默认情况下，模型被训练为50个时代，并且学习率在第40个时代被衰减了0.1倍。根据DETR(Carion等人，2020年)，我们使用Adam优化器(Kingma&Ba，2015)对我们的模型进行训练，基本学习率为2×10−4，β1=0.9，β2=0.999，权重衰减为10−4。用于预测对象查询参考点和采样偏移量的线性投影的学习率乘以0.1倍。在NVIDIA Tesla V10上评估运行时间

5.1 COMPARISON WITH DETR

如表1所示，与Faster R-CNN+FPN相比，DETR需要更多的训练时代来收敛，并且在检测小物体方面提供了较低的性能。与DETR相比，可变形的DETR在较少训练期10×的情况下取得了更好的性能（特别是在小物体上）。具体的收敛曲线如图3所示。通过迭代边界盒细化和两阶段范式，我们的方法可以进一步提高检测精度。

DETR，可变形的DETR在较少10×的训练时期内获得了更好的性能（特别是在小物体上）。具体的收敛曲线如图3所示。通过迭代边界盒细化和两阶段范式，我们的方法可以进一步提高检测精度。

我们提出的可变形的DETR与Faster R-CNN+FPN和DETR-DC5有相同的优点。但是运行时的速度比DETR-DC5要快得多（1.6×），并且只比Faster R-CNN+FPN慢25%。DETR-DC5的速度问题主要是由于transformer关注的大量内存访问。我们提出的可变形注意力可以缓解这个问题，代价是无序内存访问。因此，它仍然比传统的卷积稍慢一些。

5.2 ABLATION STUDY ON DEFORMABLE ATTENTION

表2给出了可变形注意模块的各种设计选择的消融。使用多尺度输入代替单尺度输入可以有效提高1.7%AP的检测精度，特别是在APS为2.9%的小物体上。增加采样点数K可以进一步提高0.9%的AP。使用多尺度可变形注意，允许不同尺度级别之间的信息交换，可以带来额外的1.5%的AP改进。由于已经采用了跨级别的特性交换，所以添加fpn并不会提高性能。当不应用多尺度注意时，和K=1，我们的（多尺度）可变形注意模块退化为可变形卷积，提供明显较低的精度

5.3 COMPARISON WITH STATE-OF-THE-ART METHODS

表3比较了所提出的方法与其他最先进的方法。表3中我们的模型都使用了迭代边界盒细化和两阶段机制。使用ResNet-101和ResNeXt-101(Xieetal.，2017)，我们的方法在无花哨功能的情况下分别达到48.7 AP和49.0 AP。通过使用ResNeXt-101和DCN(Zhu等人，2019b)，精度提高到50.1AP。通过额外的测试时间增强，该方法达到了52.3AP。

6 CONCLUSION

可变形DETR是一种端到端目标检测器，高效、快速收敛。它使我们能够探索更有趣和实用的端到端对象探测器的变体。可变形DETR的核心是（多尺度）可变形注意模块，这是处理图像特征图的一种有效的注意机制。我们希望我们的工作能为探索端到端目标检测开辟新的可能性。

A APPENDIX

A.1 COMPLEXITY FOR DEFORMABLE ATTENTION

假设查询元素的数量为Nq，在可变形注意模块中（见公式2），计算采样坐标偏移量和注意权值的复杂度为。给定采样坐标偏移量和注意权值，计算方程2的复杂度为，其中5NqKC的因子是由于双线性插值和注意加权和。另一方面，我们也可以在采样前计算，因为它与查询无关，计算方程2的复杂度将变为。因此，可变形注意的整体复杂性是。在我们的实验中，默认为M=8，K≤4和C=256，因此为5K+3MK<C，复杂度为。

A.2 CONSTRUCTING MULT-SCALE FEATURE MAPS FOR DEFORMABLE DETR

如第4.1节所述，如图4所示，从ResNet中C3到C5阶段的输出特征图中提取(He等人，2016)的编码器的输入多尺度特征图（通过1×1卷积转换）。最低分辨率的特征图 $x^{L}$ 是通过在最后的C5阶段上的3×3步幅2卷积获得的。请注意，FPN(Linetal.，2017a)没有被使用，因为我们提出的多尺度可变形注意力本身可以在多尺度特征图之间交换信息。

A.3 BOUNDING BOX PREDICTION IN DEFORMABLE DETR

由于多尺度可变形注意模块提取了参考点周围的图像特征，因此我们设计了检测头来预测边界盒作为相对偏移量w.r.t.参考点可进一步降低优化难度。参考点被用作盒子中心的初始猜测。检测头预测相对偏移量w.r.t.参考点，，即.，

R,是由检测头预测的。σ和σ^−1分别表示s型函数和逆s型函数,使用σ和σ^−1是为了确保bˆ具有标准化坐标，如。这样，学习到的解码器注意力与预测的边界框有很强的相关性，这也加速了训练的收敛。

A.4 MORE IMPLEMENTATION DETAILS

Iterative Bounding Box Refifinement. 在这里，每个解码器层根据上一层的预测来细化边界框。假设有D个解码器层(例如，D=6)，给定由(d−1)个解码器层预测的归一化边界框，第d个解码器层将该框细化为

其中，在第d个解码器层被预测。针对不同解码器层的预测头不共享参数。初始的方框被设置为、和。该系统对和的选择具有鲁棒性。我们尝试将它们设置为0.05、0.1、0.2、0.5，并取得了类似的性能。为了稳定训练，类似于Teed&Deng（2020），梯度只通过反向传播，并在处被阻塞。

在迭代边界框细化中，对于第d个解码器层，我们对从(d−1)个解码器层预测的框各自的关键元素进行采样。对于第d个解码器层的交叉注意模块中的方程3，作为新的参考点。采样偏移量也被盒子大小调制，如。这种改性修饰使采样位置与先前预测的盒子的中心和大小相关。

Two-Stage Deformable DETR. 在第一阶段，给定编码器的输出特征映射，对每个像素应用一个检测头。检测头分别为用于边界盒回归的3层FFN，以及用于边界盒二进制分类（即前景和背景）的线性投影。设我用i二维归一化坐标的一个像素，其对应的边界框被预测

其中，基本对象尺度s设置为0.05，由边界盒回归分支预测。匈牙利的DETR损失用于训练检测头。

给定第一阶段预测的边界框，选择得分最高的边界框作为区域建议。在第二阶段，将这些区域建议作为初始框输入解码器进行迭代边界框细化，其中将对象查询的位置embeding设置为区域建议坐标的位置embeding。

Initialization for Multi-scale Deformable Attention. 在我们的实验中，注意头的数量被设置为M=8。在多尺度可变形注意模块中，对和进行了随机初始化。用于预测和的线性投影的权值参数被初始化为零。线性投影的偏差参数初始化，使和。

对于迭代边界框细化，将解码器中预测的初始化偏置参数进一步乘以，使初始化时的所有采样点都在前一个解码器层预测的相应边界框内。

A.5 WHAT DEFORMABLE DETR LOOKS AT?

为了研究变形DETR的最终检测结果，我们绘制了最终预测中每个像素的梯度范数(即对象中心的x/y坐标、对象边界框的宽度/高度、该对象的类别得分)，如图5所示。根据泰勒定理，梯度范数可以反映输出相对于像素扰动的变化程度，从而可以告诉我们模型主要用来使用哪些像素来预测每个项目。

可视化表明，可变形的DETR通过查看对象的极端点来确定其边界盒，这与DETR中的观察结果类似(Carionetal.，2020)。更具体地说，可变形的DETR关注对象的x坐标和宽度的左右边界，以及y坐标和高度的上/底边界。与此同时，与DETR不同(Carionetal.，2020)不同，我们的可变形DETR也会查看对象内部的像素来预测其类别

A.6 VISUALIZATION OF MULTI-SCALE DEFORMABLE ATTENTION

为了更好地理解学习到的多尺度可变形注意模块，我们在编码器和解码器中将最后一层的采样点和注意权重可视化，如图6所示。为了便于阅读，我们将来自不同分辨率的特征图中的采样点和注意权重合并到一张图片中。

与DETR类似(Carionetal.，2020)，这些实例已经在可变形DETR的编码器中分离。而在解码器中，我们的模型关注于整个前景实例，而不是在DETR中观察到的极端点(Carionetal.，2020)。结合图5中的可视化，我们可以猜测原因是我们的变形DETR不仅需要极端点，还需要目标对象类别的内部点。可视化结果还表明，所提出的多尺度可变形注意模块可以根据前景物体的不同尺度和形状来调整其采样点和注意权重。

论文精读:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION