CVPR 2022|群核前沿院等提出首个基于数据驱动的面检测算法

作者丨叫我佳老师@知乎(已授权)

来源丨https://www.zhihu.com/question/517340666/answer/2374684918

编辑丨极市平台

4b272ce6ae88ee404dcf5adc2422b4df.png

项目链接:https://manycore-research.github.io/faceformer/

论文链接:https://arxiv.org/abs/2203.04229

代码链接:https://github.com/manycore-research/faceformer

肝完了ECCV 2022,来介绍一下我们刚被CVPR 2022接受的基于单张线框图的三维重建论文。

太长不看(TL;DR)

我们提出了首个基于数据驱动的面检测算法;我们基于面检测结果提出了一个简易的三维重建解决方案。

前言

面检测是计算机视觉/图形学中的一个基本问题。传统方法基于复杂的几何搜索与推断,很不直观。然而,人眼可以迅速地从图片中找出此类几何元素,因此我们猜想:人脑的判定方式是基于历史观测数据。因此提出通过数据驱动的方法,训练神经网络在进行此类检测。

基于自回归模型的面检测

面检测就是从输入的单张线框图(矢量图)中找到真实三维面所对应边的集合,如下图所示。

d5c5a90175495500ff63cc5280db0239.png
面检测

边界表达(B-Rep)是CAD中标准模型表达的方式,我们的方法借鉴了其中共边(co-edge)这一个属性:

  1. 每个边(edge)对应了两个共边(co-edge),且两个共边方向相反;

  2. 每条边(edge)严格被两个面(face)共享,这条边的两个共边分别对应了这两个面;

  3. 共边(co-edge)方向定义:沿环的方向看,(假设面的方向朝上)面总在边的左侧。

d0c03683550d493b51e6609a040d90ba.png
边界表达(B-Rep)

借助共边, 面就可以方便被表达为共边的环 (co-edge loops) , 如上图所示, 三个标记的面的共 边的集合分贝是  和  。

随后,我们设计了一种基于Transformer的自回归模型,从每条共边出发,网络自动的寻找其所在的面。如下图所示,网络每次基于当前预测的共边集合,输出下一条边,当预测结束后,预测出对应面的类型。

46a6e4da839049dad4166bb6dc79dd37.png
Faceformer示意图

这样做的好处是,我们的模型可以在共边这个维度上做到并行,加速网络的推断。我们惊讶的方法,基于自回归的方法能够达到93.8%的准确率和95.9%的精度(如果训练更久,达到99%也不在话下)。

三维重建

571b235bd9947f12534a46cf0efee6a6.png

随后,我们基于面检测的结果设计了一个三维重建算法。大致的思想是利用面检测中得到的平面,三维重建提供了一组共面的约束。但是,只依赖面检测的结果是不够的,我们假设物体有三个相互垂直的主方向(曼哈顿假设),进一步约束面的朝向(具体算法参见论文吧,在此就不赘述了)。

再来看看我们三维重建的结果吧,与单纯基于图像的三维重建算法相比,我们的方法不仅重建地更好,而且还能保证拓扑的正确性。比较amazing的是最后一行的结果,相信小伙伴们单单通过输入图片也很难想象出这个三维物体的形状吧。

018764593578375ae9e788cd2cb2be5b.png
三位重建结果对比

公众号后台回复“数据集”获取60+深度学习数据集下载~

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

c67ea1a862b0d7e707633a18fefdf914.png

▲长按加微信群或投稿

c6a98ac74e78cdc5cde229ec3bc34d90.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

100d99254f7ab0a5d2888b453ad8e08a.png

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

猜你喜欢

转载自blog.csdn.net/qq_29462849/article/details/123564808