(三)论文阅读 | 目标检测之CenterNet-Points


简介

在这里插入图片描述

图1:论文原文

论文是2019年的一篇基于Anchor-Free的目标检测论文。CenterNet——顾名思义,其检测流程是先得到目标的中心点,再由中心点得到边界框,进而完成目标检测过程。(本文不介绍CenterNet在3D目标检测和人体姿态估计中的应用)
论文原文 源码


0. Abstract

论文指出大多数检测算法的做法是产生大量对目标位置的预测,但这类做法耗时低效且需要后处理。论文提出将目标检测转化为检测边界框中心点的方法。实验结果为在MS COCO数据集上的AP为28.1%、速度为142FPS,37.4%、52FPS,45.1%、1.4FPS。
论文贡献:(一)提出一种新的Anchor-Free目标检测方法;(二)论文方法稍加改动即可用于3D目标检测和人体姿态估计等相关检测任务。


1. Introduction

当前大多数目标检测方法首先产生大量建议框,然后判别每个框内是否含有目标。然而,由于该类算法需要产生所有可能的建议框而常常需要大量重复的计算,进而影响了算法的精度和实时性。
在这里插入图片描述

图2:CenterNet使用一个中心点表示物体

论文提出了一种简单和高效的方法:使用边界框的中心点表示物体。将图像输入到一个全卷积网络得到一个热图,这个热图的峰值对应于目标的中心点,峰值周围的图像特征用于预测边界框的高和宽。在推理阶段,CenterNet使用单个网络进行前向传播,去掉NMS的后处理。CenterNet的实验结果结果见图3。
在这里插入图片描述

图3:CenterNet实验结果对比


2. Related Work

CenterNet方法同Anchor-Based的一阶段方法相关,一个中心点可以看做是单个形状不定的Anchor。不同之处在于:(1)CenterNet仅根据位置来分配 “ Anchor ” ,没有手动设置的用于前景和背景分类的阈值;(2)CenterNet仅含有一个正类“ Anchor ” ,不需要NMS处理;(3)CenterNet使用较大分辨率的输出,避免了使用多重Anchors。
在这里插入图片描述

图4:Anchor-Based方法同论文方法区别

图4中子图1是Anchor-Based方法。当预测框同标注框的IoU大于0.7时,则被视为正类,否则视为负类;图4中子图2是论文方法。通过预测中心点得到边界框。


3. Preliminary

首先定义几个变量。 I I 表示宽为 W W ,高为 H H 的输入图形;CenterNet产生关键点热图 Y ^ \hat{Y} R R 表示输出的步长(下采样的倍数), C C 是关键点的类别数( C = 80 C=80 ); Y ^ = 1 \hat{Y}=1 表示检测的关键点, Y ^ = 0 \hat{Y}=0 表示背景。

注: I I R W × H × 3 ∈R^{W×H×3} Y ^ \hat{Y} [ 0 , 1 ] W R × H R × C ∈[0,1]^{\frac{W}{R}×\frac{H}{R}×C}

对于类别 c c 的标注关键点 p p ,计算其在下采样图中为 p ~ \tilde{p} 。然后使用高斯核 Y x y c Y_{xyc} 将所有标注关键点分散到一个热图 Y Y 上, σ 2 σ^2 表示标准差。如果同一类别的两个高斯计算结果相同,取较大值。

注: p p R 2 ∈R^2 p ~ = p R \tilde{p}=\lfloor\frac{p}{R}\rfloor Y x y c = e x p ( ( x p ~ x ) 2 + ( y p ~ y ) 2 2 σ p 2 ) Y_{xyc}={\rm exp}(-\frac{(x-\tilde{p}_x)^2+(y-\tilde{p}_y)^2}{2σ^2_p}) Y [ 0 , 1 ] W R × H R × C Y∈[0,1]^{\frac{W}{R}×\frac{H}{R}×C}

由此得到第一部分损失函数 L k L_k
L k = 1 N x y c { ( 1 Y ^ x y c ) α l o g ( Y ^ x y c ) i f Y x y c = 1 ( 1 Y x y c ) β ( Y ^ x y c ) α l o g ( 1 Y ^ x y c ) o t h e r w i s e (3.1) L_k =\frac{-1}{N}\sum\limits_{xyc}\left\{ \begin{aligned} &(1-\hat{Y}_{xyc})^α{\rm log}(\hat{Y}_{xyc})&if Y_{xyc}=1\\ &(1-Y_{xyc})^β(\hat{Y}_{xyc})^α{\rm log}(1-\hat{Y}_{xyc})&otherwise \end{aligned} \right.\tag{3.1}

这是Focal Loss的典型形式。 N N 表示图像 I I 中的目标数, α = 2 α=2 β = 2 β=2

同时预测一个偏移 O ^ \hat{O} 处理下采样后的图像中的关键点映射回原图所产生误差,由此得到第二部分损失函数 L o f f L_{off}
L o f f = 1 N p O ^ p ~ ( p R p ~ ) (3.2) L_{off} =\frac{1}{N}\sum\limits_{p}|\hat{O}_{\tilde{p}}-(\frac{p}{R}-\tilde{p})| \tag{3.2}

注: O ^ R W R × H R × 2 \hat{O}∈R^{\frac{W}{R}×\frac{H}{R}×2} L o f f L_{off} 只在 p ~ \tilde{p} (预测为正类关键点)处使用,其他地方为零。 L o f f L_{off} 为L1损失函数形式:
L 1 = y i f ( x i ) L_1=\sum|y_i-f(x_i)|


4. Objects as Points

首先定义几个变量。 ( x 1 ( k ) y 1 ( k ) x 2 ( k ) y 2 ( k ) ) (x_1^{(k)},y_1^{(k)},x_2^{(k)},y_2^{(k)}) 表示类别为 c k c_k 的目标 k k 的边界框,则其中心点的坐标为 p k = ( x 1 ( k ) + x 2 ( k ) 2 , y 1 ( k ) + y 2 ( k ) ) 2 ) p_k=(\frac{x_1^{(k)}+x_2^{(k)}}{2},\frac{y_1^{(k)}+y_2^{(k)})}{2}) 。使用上述定义的热图 Y ^ \hat{Y} 来预测所有的中心点。此外,对于每个目标 k k ,回归边界框的宽高 s k = ( x 2 ( k ) x 1 ( k ) , y 2 ( k ) y 1 ( k ) ) s_k=(x_2^{(k)}-x_1^{(k)},y_2^{(k)}-y_1^{(k)}) 。同时,为了减少计算量,对每个类别使用同样的宽高预测 S ^ \hat{S} 。由此得到第三部分损失函数 L s i z e L_{size}
L s i z e = 1 N k = 1 N S ^ p k s k (4.1) L_{size} =\frac{1}{N}\sum\limits_{k=1}^{N} |\hat{S}_{p_k}-s_k| \tag{4.1}

注: S ^ R W R × H R × 2 \hat{S}∈R^{\frac{W}{R}×\frac{H}{R}×2} ,这里也是 L 1 L_1 损失函数的形式。

总的损失函数 L d e t L_{det} 定义为:
L d e t = L k + λ s i z e L s i z e + λ o f f L o f f (4.2) L_{det} =L_k+λ_{size}L_{size}+λ_{off}L_{off} \tag{4.2}

网络同时预测 Y ^ \hat{Y} (关键点热图)、 O ^ \hat{O} (位置偏移)、 S ^ \hat{S} (宽高预测),在每个像素点位置得到 C + 4 C+4 个输出。
在这里插入图片描述

图5:CenterNet用于目标检测

C + 4 C+4 对应于图5中三幅图。第一幅图中 C C 为类别数,第二图中2为预测的偏移,第三幅图中2为预测的宽高。

如何使用中心点生成边界框?
在推理阶段,独立地提取每个类别热图的峰值,判断峰值是否大于或等于其8-领域的值,最后保留前100个峰值。 P ^ c \hat{P}_c 表示类别 c c 得到的 n n 个检测点,每个关键点的坐标为 ( x i , y i ) (x_i, y_i) Y ^ x i y i c \hat{Y}_{x_iy_ic} 为其置信度。则得到边界框(左上角坐标和右下角坐标):
( x ^ i + δ x ^ i w ^ i / 2 y ^ i + δ y ^ i h ^ i / 2 ) (\hat{x}_i+δ\hat{x}_i-\hat{w}_i/2,\hat{y}_i+δ\hat{y}_i-\hat{h}_i/2)

( x ^ i + δ x ^ i + w ^ i / 2 y ^ i + δ y ^ i + h ^ i / 2 ) (\hat{x}_i+δ\hat{x}_i+\hat{w}_i/2,\hat{y}_i+δ\hat{y}_i+\hat{h}_i/2)

其中 P ^ c = { ( x i ^ y i ^ ) } i = 1 n \hat{P}_c=\{(\hat{x_i},\hat{y_i})\}_{i=1}^n ( δ x i ^ , δ y i ^ ) = O ^ x i ^ , y i ^ (δ\hat{x_i},δ\hat{y_i})=\hat{O}_{\hat{x_i},\hat{y_i}} 为偏移预测、 ( w ^ i , h ^ i ) = S ^ x ^ i , y ^ i (\hat{w}_i,\hat{h}_i)=\hat{S}_{\hat{x}_i,\hat{y}_i} 为宽高预测。

由此产生的边界框不需要NMS等后处理方法。


5. Implementation Details

论文使用四种Backbone做实验,ResNet-18ResNet-101DLA-34Hourglass-104。训练超参数设置和细节可参考论文原文。四种Backbone的结果对比:
在这里插入图片描述

图6:不同Backbone的对比


6. Experiments

在这里插入图片描述

图7:实验结果对比


7. Conclusion

论文提出了一种新的目标表示方法:。CenterNet检测目标的中心,然后回归宽高;算法简单高效,不需要任何NMS等后处理。另:论文原文还给出了实验中所使用的Backbone以及消融实验等。

由于没有阅读源码,本文只总结了CenterNet的大体结构和信息,详细内容请阅读论文原文


参考

  1. Zhou X, Wang D, Krähenbühl P. Objects as points[J]. arXiv preprint arXiv:1904.07850, 2019.


发布了12 篇原创文章 · 获赞 0 · 访问量 628

猜你喜欢

转载自blog.csdn.net/Skies_/article/details/104359917
今日推荐