SDOD: Real-time Segmenting and Detecting 3D Objects by Depth（实时3D检测与分割） - 代码天地

SDOD: Real-time Segmenting and Detecting 3D Objects by Depth（实时3D检测与分割）

其他 2020-02-25 22:33:30 阅读次数: 0

作者：Tom Hardy
Date：2020-2-24
来源：SDOD：基于depth的实时3D检测与分割

主要思想与创新点

大多数现有的实例分割方法只关注2D对象，不适用于三维场景，如自动驾驶。本文提出了一种将实例分割和目标检测分为两个并行分支的模型，将对象深度离散为“深度类别”（背景设置为0，对象设置为[1，K]），将实例分割任务转化为像素级分类任务。mask分支预测像素级的“深度类别”，3D分支预测实例级的“深度类别”，通过给每个实例分配具有相同“深度类别”的像素来生成实例掩模。另外，为了解决KITTI数据集（200为mask，7481为3D）中mask标签与3D标签不平衡的问题，本文采用其它实例分割方法生成的unreal mask来训练mask分支。
尽管使用了不真实的mask labels，但在KITTI数据集上的实验结果仍然达到了车辆实例分割的最佳性能。

本文创新点主要包括三点：

通过离散深度将实例分割任务转化为语义分割任务
提出一个结合3D检测和实例分割的网络，并将其设置为并行分支以加快速度
结合unreal的mask和真实的深度来训练mask分支，以解决标签不平衡的问题

网络结构

SDOD框架的总体结构如下图所示，它由两个并行分支：3D分支和mask分支组成。

在这里插入图片描述
针对3D检测：本文参考了MonoGRNet的设计，将3D对象检测分解为四个子网：2D检测、实例级深度估计、3D位置估计和角点回归。2D检测采用类似于YOLO结构的方式，Instance Depth是从RGB图像中回归出来的离散深度图。

针对Mask分支：采用ASPP+FCN方式。FCN模块最终输出C个图像（C代表类别），每个图像是目标的像素级深度类别图，如上图所示。像素的颜色越深，像素的深度值就越大，像素离我们越远。这个分支完成了像素级别的分割+depth估计。

Mask分支完成了基于像素级别的深度和类别分割，3D分支完成了目标的3D检测，两者进行结合，完成实时检测和分割。

针对损失函数：主要包括2D Detection loss、实例级深度损失、像素级深度损失以及3D box的角度损失和位置损失。

实验结果

主要针对KITTI数据集进行试验分析，并和其它模型进行了性能对比：

在这里插入图片描述

实例检测分割效果：

在这里插入图片描述

Tom Hardy 博客专家

发布了270 篇原创文章 · 获赞 303 · 访问量 42万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/qq_29462849/article/details/104506012

SDOD: Real-time Segmenting and Detecting 3D Objects by Depth（实时3D检测与分割）

3D【18】深度信息增强：Real-Time Depth Refinement for Specular Objects

Volumetric 3D Mapping in Real-Time on a CPU

【2022】将3D目标检测看作序列预测-Point2Seq: Detecting 3D Objects as Sequences

Re3 : Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects

Real-time 3D Hand Pose Estimation with 3D Convolutional Neural Networks

【实例分割论文】 SOLO：Segmenting Objects by Locations

【实例分割】SOLO：Segmenting Objects by Locations

读论文：Real-time Object Classification in 3D Point Clouds Using Point Feature Histograms

Visual Odometry(视觉里程计)： StereoScan Dense 3d Reconstruction in Real-time

PIXOR: Real-time 3D Object Detection from Point

【论文阅读笔记】VNect: Real-time 3D human Pose Estimation with a Single RGB

【论文翻译】MobileHumanPose: Toward real-time 3D human pose estimation in mobiledevices

MobileHumanPose: Toward real-time 3D human pose estimation in mobile devices

GANerated Hands for Real-Time 3D Hand Tracking from Monocular RGB阅读笔记

SOLO: Segmenting Objects by Locations

6D姿态估计从0单排——看论文的小鸡篇——Gradient Response Maps for Real-Time Detection of Texture-Less Objects

Paper5：Curved-Voxel Clustering for Accurate Segmentation of 3D LiDAR Point Clouds with Real-Time Per

【论文简述】OcclusionFusion: Occlusion-aware Motion Estimationfor Real-time Dynamic 3D Recons（CVPR 2022）

GPS-Gaussian:Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis

【目标检测】CornerNet: Detecting Objects as Paired Keypoints

3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)

3D视觉——4.手势识别(Gesture Recognition)入门——使用MediaPipe含单帧(Singel Frame)和实时视频(Real-Time Video)

real-time RGB-D camera relocalization

读real time localization and 3D reconstruction笔记

Remove the 3D Objects folder from This PC in Windows 10

3D Reconstruction of Transparent Objects with Position-Normal Consistency

关于实时(Real-time)

Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes

目标检测系列（七）——CornerNet：detecting objects as paired keypoints

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)