Abstract

基于anchor的目标检测算法通常会列举大量可能存在对象位置的列表，这是浪费的、低效的。作者采用了一种不同的方法。将一个对象建模为单个点——其边界框的中心点。检测器使用关键点估计来寻找中心点，并回归到所有其他对象属性，如大小、三维位置、方向，甚至姿态。基于中心点的方-CenterNet，是端到端的，比相应的基于边界盒的检测器更简单、更快、更准确

1. Introduction

在本文中，作者摒弃了原来基于锚框的做法。作者在对象的边界框中心用单个点来表示对象（参见图2）。其他属性，如对象大小、尺寸、三维范围、方向和姿态，然后直接从中心位置的图像特征回归。对象检测是一个标准的关键点估计问题[3,39,60]。我们只需将输入的图像提供给一个完全卷积的网络[37,40]，从而生成一个热图。这个热图中的峰值对应于对象中心。每个峰值处的图像特征可以预测物体边界框的高度和权重。该模型使用标准的密集监督学习[39,60]进行训练。推理仅仅只需要进行预测，而不需要经过非极大值抑制等后处理

3. Preliminary

分类：

正负样本的分配:首先将原始图像下采样R倍（4倍），然后，基于下采样的特征图分配正负样本。为了维持正负样本均衡，采用高斯分布的方式为每个关键点分配标签。

即以中心点为中心的高斯分布。表示原图像像素点对应于下采样后的特征图的关键点位置。

如果出现了重叠，就取较大的值。

此时，关键点分类的损失：

位置:

为正样本预测一个偏移值，这里的偏移与YOLO的偏移差不多，损失函数：

长宽：

长宽也是根据关键点直接进行预测:,损失函数为:

总损失函数:

作者在所有实验中都设置了λsize = 0.1和λof f = 1。我们使用一个单个网络来预测关键点Yˆ、偏移量ˆO和大小Sˆ。该网络预测了每个位置的C+4个输出。所有的输出都共享一个共同的全卷积主干网络。对于每个模态，主干的特征然后通过一个单独的3×3卷积，ReLU和另一个1×1卷积。图4显示了网络输出的概述。

从关键点到检测框:

在推理时，首先独立地提取每个类别的热图中的峰值。检测所有值大于或等于它的8个连接邻居的位置，并保持前100个峰值。类c的n个中心点组成了集合。每个关键点的位置都由一个整数坐标（xi、yi）给出。使用关键点值作为其检测置信度的度量，并在一个位置产生一个边界框。为偏移量，为宽和高。所有的输出都是直接从关键点估计中产生的，而不需要基于iou的非最大抑制（NMS）或其他后处理。峰值关键点提取是一个足够的NMS替代方案，可以使用3×3最大池化操作在设备上有效实现。

4.1. 3D detection

三维检测估计每个对象有一个三维边界框，并且每个中心点需要三个额外的属性：深度、三维维度和方向。我们为每个人添加一个单独的头。深度d是每个中心点的单个标量。然而，深度很难直接回归到。使用进行深度变换。并使用L1损失

4.2. Human pose estimation

人体姿态估计的目的是估计图像中每个人体实例的k个2D人体关节位置（k = 17为COCO）。将姿态视为中心点的k×2二维的中心点坐标，并通过偏移点来参数化每个关键点。我们使用L1损失直接回归到联合偏移量（以像素为单位)。

为了细化关键点，我们进一步使用标准的自下而上的多人体姿态估计[4,39,41]估计了k个人体关节热图。我们用焦点损失和局部像素偏移来训练人体关节热图

然后，我们将最初的预测捕捉到这个热图上最近检测到的关键点。在这里，我们的中心偏移量作为一个分组线索，将单个的关键点检测分配给他们最近的人实例。具体来说，设（ˆx，yˆ）是一个检测到的中心点。我们首先回归到所有的联合位置。我们还从相应的热图ˆΦ··j中提取每个关节类型j的的置信度>0.1。然后，我们将每个回归位置lj分配到其最近的检测关键点，只考虑被检测对象的边界框内的联合检测。