Position Embedding Transformation for Multi-View 3D Object Detection (PETR : Position Embedding Transformation for Multi-View 3D Object Detection)

arrière-plan

Rechercher les problèmes existants

Cet article PETR (PETR : Position Embedding Transformation for Multi-View 3D Object Detection) est une amélioration de DETR3D (3D Object Detection from Multi-view Images via 3D-to-2D Queries), et il y a encore trois problèmes dans la conversion de 2D en 3D :

(1) L'interaction des informations entre l'espace et les vues multiples dépend de la précision de l'estimation du point de référence 3D, de sorte que les éléments échantillonnés dépassent la zone de l'objet, ne peuvent pas être projetés dans la zone effective et ne peuvent pas interagir avec les images 2D ; (2) collecter uniquement
Les caractéristiques de l'image aux points projetés effectuent uniquement une interaction d'informations entre les requêtes d'objet et les caractéristiques des points 2D projetés par le point de référence 3D, et ne peuvent pas effectuer d'apprentissage de représentation à partir de la vue globale ; (3) Le processus complexe d'échantillonnage des
caractéristiques entraver la détection réelle du détecteur.Application, pour construire un cadre de détection d'objets 3D de bout en bout sans conversion 2D en 3D en ligne et échantillonnage de caractéristiques.En raison du besoin d'échantillonnage et de projection, le pipeline de l'architecture est relativement complexe, ce qui affecte l'efficacité du raisonnement.
Bien que la technologie PETR ait un bon potentiel d'application dans la détection d'objets 3D multi-vues, elle présente encore certains problèmes, notamment :

  1. Complexité de calcul : le modèle PETR doit coder les informations de localisation des coordonnées tridimensionnelles dans les caractéristiques de l'image, ce qui entraîne une augmentation de la complexité de calcul et nécessite des ressources informatiques et des coûts de temps plus élevés pour réaliser la formation et l'inférence du modèle.
  2. Problème de précision : étant donné que la technologie PETR génère des caractéristiques tridimensionnelles sensibles à la position en codant des informations de position tridimensionnelles, pour les objets éloignés de la caméra, ses informations de position seront déformées, ce qui peut entraîner une diminution de la précision de détection.
  3. Limitation de l'ensemble de données : la technologie PETR nécessite une grande quantité de données d'entraînement avec des informations de position en trois dimensions pour entraîner le modèle, mais il y a toujours un manque d'ensembles de données à grande échelle disponibles, ce qui limite l'application et la promotion de cette technologie.
  4. Modifications de la forme et de la pose des objets : la technologie PETR peut être affectée par les modifications de la forme et de la pose des objets, ce qui entraîne une baisse de la précision de détection. Par conséquent, pour les objets aux formes et poses complexes, la technique PETR peut nécessiter des modèles plus complexes et plus robustes pour obtenir de meilleures performances de détection.

Visant les problèmes susmentionnés, cette recherche porte principalement sur

En réponse aux problèmes susmentionnés, cet article propose une solution simple et élégante pour la détection d'objets 3D multi-vues - PETR. PETR abandonne l'échantillonnage et la projection, calcule directement le code de position 3D correspondant à la multi-vue 2D et l'ajoute aux caractéristiques de l'image 2D, puis interagit avec les requêtes d'objets 3D pour mettre à jour directement les requêtes d'objets 3D, ce qui simplifie grandement le pipeline. Pour ce faire, l'espace du tronc de caméra partagé par différentes vues est d'abord discrétisé en coordonnées de grille. Ensuite, les coordonnées sont transformées par différents paramètres de caméra pour obtenir des coordonnées dans l'espace mondial 3D. Deuxièmement, les caractéristiques d'image 2D extraites de la dorsale et les coordonnées 3D sont entrées dans un simple encodeur de position 3D pour produire des caractéristiques 3D sensibles à la position. Enfin, les fonctionnalités sensibles à la position 3D interagiront avec la requête d'objet dans le transformateur-décodeur, et la requête d'objet mise à jour est ensuite utilisée pour prédire les classes d'objets et les boîtes englobantes 3D.

Quels sont les avantages par rapport aux méthodes traditionnelles

Par rapport aux méthodes traditionnelles, la détection de scène 3D multi-vues AI - PETR utilise le calcul direct des codes de position 3D correspondant aux vues 2D pour l'interaction, ce qui réduit considérablement la perte de flux entre les données et enregistre plusieurs fois le processus de calcul des projections pour les points de référence. , il y a les six avantages suivants :
1. Précision de détection plus élevée : la méthode PETR peut traiter des données de nuages ​​de points à partir de plusieurs perspectives en même temps et peut utiliser des fonctionnalités de détection de position 3D pour améliorer la précision de détection, en particulier lors du traitement d'objets éloignés de Lorsqu'il s'agit d'objets, la méthode PETR présente des avantages par rapport aux méthodes traditionnelles et à d'autres solutions.
2. Meilleure capacité d'estimation d'attitude : étant donné que la méthode PETR peut coder des informations de position tridimensionnelles et introduit une technologie de conversion d'intégration de position, elle a une meilleure capacité lors de l'estimation d'attitude et peut estimer plus précisément la direction et l'angle de rotation des objets, etc. .
3. Robustesse et fiabilité accrues : la méthode PETR est capable de détecter et de reconnaître des objets sous plusieurs angles et angles de vue. Elle présente donc une robustesse et une fiabilité supérieures et peut s'adapter à différents scénarios et exigences d'application.
4. Apprentissage de bout en bout : la méthode PETR peut effectuer un apprentissage de bout en bout et apprendre des fonctionnalités directement à partir des données d'origine via le modèle de réseau de neurones, en évitant les inconvénients de la conception manuelle des fonctionnalités dans les méthodes traditionnelles.
5. Meilleure évolutivité : la méthode PETR peut utiliser plus de perspectives et de données pour la formation et l'optimisation des modèles, de sorte qu'elle a une meilleure évolutivité et peut faire face à des scénarios et des exigences de données à plus grande échelle.
6. Le mécanisme d'attention spatiale est introduit, qui peut mieux utiliser les caractéristiques locales et globales des données de nuages ​​de points pour la détection.

Quels sont les scénarios d'application

La détection de scènes 3D multi-vues par IA est une technologie qui utilise la technologie d'apprentissage en profondeur pour analyser et reconnaître des scènes 3D. Elle utilise des images ou des vidéos de plusieurs perspectives comme données d'entrée, et peut modéliser et reconstruire des objets à partir de plusieurs perspectives et perspectives. , ce qui est applicable aux scénarios d'application suivants :
(1) Conduite autonome : la technologie de détection de scène 3D multi-vues peut être utilisée pour la perception de l'environnement en temps réel et l'avertissement de sécurité de conduite des véhicules autonomes, tels que la détection des panneaux de signalisation, des feux de circulation, des piétons, des véhicules, etc. .
(2) UAV : la technologie de détection de scène 3D multi-vues peut être utilisée dans les tâches de perception de scène UAV et de photographie aérienne, telles que la détection de bâtiments, de routes, d'eaux, de terres agricoles, etc.
(3) Fabrication industrielle : la technologie de détection de scène 3D multi-vues peut être utilisée pour l'inspection de la qualité et l'optimisation de la chaîne de production dans la fabrication industrielle, comme la détection des pièces, des défauts et des dimensions du produit.
(4) Architecture et urbanisme : la technologie de détection de scènes 3D multi-vues peut être utilisée pour la reconnaissance de bâtiments et la construction de modèles 3D dans l'architecture et l'urbanisme, comme la détection de bâtiments, de vues de rue, de parcs, etc.
(5) Surveillance de la sécurité : la technologie de détection de scènes 3D multi-vues peut être utilisée dans le domaine de la surveillance de la sécurité, comme la détection de comportements anormaux, l'identification de personnes et de véhicules, etc.
La technologie de détection de scènes 3D multi-vues offre de vastes perspectives d'application et peut apporter d'énormes avantages économiques et une valeur sociale à de nombreuses industries.

Analyse de faisabilité

La technologie de détection de scènes 3D multi-vues AI a fait l'objet d'une attention et de recherches approfondies ces dernières années et a fait beaucoup de progrès. D'un point de vue technique, la faisabilité de la technologie de détection de scène 3D multi-vues AI est relativement élevée, les principales raisons sont les suivantes :

(1) Les informations de scène multi-vues peuvent fournir une source de données plus complète et plus riche, ce qui est propice à l'amélioration de la précision et de la robustesse de la perception et de la détection de la scène.
(2) En utilisant des technologies d'intelligence artificielle avancées telles que l'apprentissage en profondeur et les réseaux de neurones, les données de scène multidimensionnelles et multimodales peuvent être traitées et analysées efficacement, permettant ainsi une détection de scène plus précise et efficace.
(3) L'amélioration des performances du matériel informatique et le développement de l'informatique en nuage, de l'informatique distribuée et d'autres technologies fournissent des ressources et des plates-formes informatiques plus puissantes et plus flexibles pour la réalisation de la détection de scènes 3D multi-vues par IA.
(4) La technologie de détection de scènes 3D multi-vues AI a été largement utilisée et vérifiée.Par exemple, elle a de bonnes performances et une expérience pratique dans les domaines de la conduite automatique, des drones et de la surveillance de la sécurité, ce qui prouve encore sa faisabilité et son caractère pratique.
En outre, l'application de la technologie de détection de scènes 3D multi-vues IA présente également certains défis et limites, tels que la difficulté de collecte de données et de traitement de scènes multi-vues, et la formation et l'optimisation des algorithmes nécessitent une grande quantité de ressources informatiques. .

Pour la méthode PETR dans la détection de scènes 3D multi-vues AI, elle utilise les informations de position des coordonnées 3D à encoder dans des caractéristiques d'image, qui peuvent générer des caractéristiques de position 3D, réalisant ainsi une détection de cible 3D de bout en bout. Grâce au développement et au progrès continus de technologies telles que l'apprentissage en profondeur et les réseaux de neurones, la faisabilité technique de la méthode PETR a été bien vérifiée et pratiquée. De plus, la méthode PETR nécessite une grande quantité de données de scène 3D comme échantillons d'apprentissage, ce qui peut présenter certaines difficultés et défis dans certains domaines. Cependant, avec le développement continu et la vulgarisation de la technologie de perception 3D, le coût et la difficulté d'acquisition et de traitement des données de scène 3D sont progressivement réduits, de sorte que la faisabilité des données est également continuellement améliorée. La méthode PETR nécessite une grande quantité de ressources informatiques pour la formation et l'optimisation, mais avec l'amélioration continue des performances du matériel informatique et le développement de technologies telles que le cloud computing et l'informatique distribuée, la faisabilité des ressources informatiques s'améliore également progressivement. Enfin, la méthode PETR a été largement utilisée et pratiquée dans les domaines de la conduite autonome, des drones, de la fabrication industrielle, de l'architecture et de l'urbanisme, et de la surveillance de la sécurité. L'expérience d'application pratique montre que la méthode PETR a un bon effet et une bonne perspective d'application dans la détection de scènes 3D, de sorte que sa faisabilité d'application pratique est également élevée.

base de données

  1. jeu de données nuScenes
type de données Ensemble de données d'images de conduite autonome à grande échelle
taille Cet ensemble de données contient des boîtes englobantes 3D de 1000 scènes collectées à Boston et à Singapour. Chaque scène dure 20 secondes et est annotée à 2 Hz. Cela donne un total de 28130 échantillons d'apprentissage, 6019 échantillons de validation et 6008 échantillons de test.
Nombre d'occurrences 23 catégories d'objets sont annotées avec des boîtes englobantes 3D précises à 2 Hz sur l'ensemble du jeu de données. De plus, les attributs au niveau de l'objet tels que la visibilité, l'activité et la pose sont annotés.
Les attributs Cet ensemble de données comprend une suite complète de données sur les véhicules autonomes : un lidar à 32 faisceaux, 6 caméras et un radar avec une couverture complète à 360 °. Le défi de détection d'objets 3D évalue les performances de 10 classes : voitures, camions, bus, remorques, véhicules de construction, piétons, motos, vélos, cônes de signalisation et obstacles.
Étiqueter Un total de 93 000 images sont étiquetées avec des masques d'instance et des boîtes 2d pour 800 000 objets de premier plan et 100 000 masques de segmentation sémantique
Résumé nuTonomy Scenes (nuScenes), le premier ensemble de données à héberger une suite de capteurs de véhicule entièrement autonome : 6 caméras, 5 radars et 1 lidar, le tout avec un champ de vision complet à 360 degrés. nuScenes contient 1000 scènes, chacune d'une durée de 20 secondes, entièrement annotées avec des boîtes englobantes 3D de 23 classes et 8 attributs. Il contient 7 fois plus d'annotations et 100 fois plus d'images que l'ensemble de données révolutionnaire KITTI. Nous définissons de nouvelles métriques de détection et de suivi 3D. Nous fournissons également une analyse minutieuse des ensembles de données et des lignes de base pour la détection et le suivi par lidar et par image. Des données, des kits de développement et d'autres informations sont disponibles en ligne.
la source de données https://www.nuscenes.org/ ; https://www.nuscenes.org/nuimages ; https://www.nuscenes.org/nuscenes
Informations de référence sur les données César, Holger et al. "nuscenes : un jeu de données multimodal pour la conduite autonome." Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes. 2020.
  1. Ensemble de données ouvert Waymo
type de données Images vidéo haute résolution collectées par des véhicules autonomes
taille Contient actuellement 1 950 segments de 20 secondes chacun, collectant des données de capteur à 10 Hz (390 000 images) dans divers emplacements et conditions géographiques
composition Se compose de deux ensembles de données : l'ensemble de données Perception avec des données de capteur haute résolution et des étiquettes pour 2 030 scènes, et l'ensemble de données Motion avec des trajectoires d'objets et des cartes 3D correspondantes pour 103 354 scènes.
ensemble d'essai 80 segments d'images de caméra de 20 secondes servent de test pour le défi de détection de caméra 3D.
Étiqueter Étiquetage de 4 classes d'objets : véhicule, piéton, cycliste, panneau ; étiquetage de haute qualité de 1 200 segments de données lidar ; 12,6 millions d'étiquettes de boîte englobante 3D avec ID de suivi sur les données lidar ; 1 000 segments de données de caméra Étiquettes de haute qualité ; 11,8 millions Étiquettes de boîte englobante 2D avec ID de suivi sur les données de la caméra
Résumé Un nouvel ensemble de données à grande échelle, de haute qualité et diversifié. Le nouvel ensemble de données contient 1150 scènes, chacune couvrant 20 secondes, et comprend des données LiDAR et de caméra de haute qualité synchronisées et calibrées capturées sur une gamme de régions géographiques urbaines et suburbaines. Selon la métrique de diversité proposée, il contient 15 fois plus que le plus grand ensemble de données caméra + LiDAR disponible. Ces données sont annotées de manière exhaustive avec des boîtes englobantes 2D (images de caméra) et 3D (LiDAR), avec des identifiants cohérents d'une image à l'autre. Enfin, une base de référence solide est fournie pour les tâches de détection et de suivi 2D et 3D. L'impact de la taille de l'ensemble de données et de la généralisation inter-géographique sur les méthodes de détection 3D est étudié plus en détail.
la source de données https://waymo.com/open/https://github.com/waymo-research/waymo-open-dataset
Informations de référence sur les données Sun, Pei et al. "Évolutivité de la perception pour la conduite autonome : ensemble de données ouvert Waymo." Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes. 2020.
  1. Jeu de données sémantiqueKITTI
type de données Ensemble de données d'images de scènes extérieures à grande échelle pour la segmentation sémantique des nuages ​​de points
taille Le jeu de données se compose de 22 séquences
catégorie L'ensemble de données contient 28 classes, y compris des classes qui font la distinction entre les objets immobiles et mobiles
former Fournit 23201 nuages ​​de points pour la formation
test 20351 nuages ​​de points sont fournis pour les tests
Les attributs Dérivé du KITTI Vision Odometry Benchmark, étendu avec des annotations ponctuelles denses pour le champ de vision complet à 360° du LiDAR automobile d'occasion
Résumé Un grand ensemble de données est introduit pour faire avancer la recherche sur la segmentation sémantique par laser. Toutes les séquences du benchmark d'odométrie visuelle KITTI sont annotées avec des annotations ponctuelles denses pour le champ de vision complet à 360° du LiDAR automobile d'occasion. Trois tâches de référence sont proposées sur la base de cet ensemble de données : (i) la segmentation sémantique des nuages ​​de points à l'aide d'un seul balayage, (ii) la segmentation sémantique à l'aide de plusieurs balayages passés et (iii) la complétion de scènes sémantiques, qui nécessite de prédire l'avenir des scènes sémantiques. Des expériences de base sont fournies et montrent que des modèles plus sophistiqués sont nécessaires pour gérer efficacement ces tâches. L'ensemble de données ouvre la porte au développement de méthodes plus avancées, tout en fournissant une mine de données pour explorer de nouvelles directions de recherche
la source de données http://www.semantic-kitti.org/dataset.htmlhttps://github.com/PRBonn/semantic-kitti-apihttps://github.com/PaddlePaddle/Paddle3D
数据引用信息 Behley, Jens, et al. “Semantickitti: A dataset for semantic scene understanding of lidar sequences.” Proceedings of the IEEE/CVF international conference on computer vision. 2019.
  1. A*3D数据集
数据类型 图像注释数据集
大小 39,179点云帧
注释 正面 RGB 图像中的 230K 人工标记 3D 对象注释
摘要 随着自动驾驶汽车在全球的日益普及,迫切需要具有挑战性的现实世界数据集来对各种计算机视觉任务(例如 3D 对象检测)进行基准测试和训练。 现有数据集要么代表简单的场景,要么只提供白天的数据。在文中,提出了一个新的具有挑战性的 A3D 数据集,它由 RGB 图像和 LiDAR 数据组成,具有显着的场景、时间和天气多样性。 该数据集由高密度图像(=10 倍于开创性的 KITTI 数据集)、严重遮挡、大量夜间帧(=3 倍于 nuScenes 数据集)组成,解决了现有数据集的差距,以推动 将自动驾驶研究中的任务边界转移到更具挑战性的高度多样化的环境中。 该数据集包含 39K 帧、7 个类和 230K 3D 对象注释。 针对高密度、白天/夜间等各种属性对 A3D 数据集进行广泛的 3D 对象检测基准评估,对在现实环境中训练和测试 3D 对象检测的优势和局限性提供了有趣的见解
数据源 https://github.com/I2RDL2/ASTAR-3D
数据引用信息 Pham, Quang-Hieu, et al. “A 3D dataset: Towards autonomous driving in challenging environments.” 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.
  1. KITTI数据集
数据类型 移动机器人和自动驾驶图像数据集
类别 • 十个对象类别的跟踪挑战:建筑物、天空、道路、植被、人行道、汽车、行人、骑自行车的人、标志/杆和栅栏; • 11 个类别:建筑物、树木、天空、汽车、标志、道路、行人、栅栏、电线杆、人行道和骑自行车的人
不同用途 • 252 次(140 次用于训练,112 次用于测试); • 170 张训练图像和 46 张测试图像
属性 使用各种传感器模式记录的数小时交通场景,包括高分辨率 RGB、灰度立体相机和 3D 激光扫描仪。数据集本身并不包含语义分割
摘要 利用自动驾驶平台为立体、光流、视觉里程计/SLAM 和 3D 目标检测任务开发具有挑战性的新基准。记录平台配备了四个高分辨率摄像机、一个 Velodyne 激光扫描仪和一个最先进的定位系统。基准包括 389 个立体和光流图像对、39.2 公里长的立体视觉里程计序列,以及在杂乱场景中捕获的超过 20 万个 3D 对象注释(每个图像最多可以看到 15 辆汽车和 30 名行人)
数据源 https://www.cvlibs.net/datasets/kitti/
数据引用信息 Geiger, Andreas, Philip Lenz, and Raquel Urtasun. “Are we ready for autonomous driving? the kitti vision benchmark suite.” 2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012.
  1. UrbanScene3D数据集
数据类型 大型城市场景视频数据集
大小 128k 的高分辨率图像
类别 涵盖 16 个场景,包括总共 136 km2 面积的大规模真实城市区域和合成城市
摘要 UrbanScene3D,这是一个用于城市场景感知和重建研究的大型数据平台。 UrbanScene3D 包含超过 128k 的高分辨率图像,涵盖 16 个场景,包括总共 136 km2 面积的大规模真实城市区域和合成城市。 该数据集还包含高精度 LiDAR 扫描和数百个具有不同观察模式的图像集,为设计和评估空中路径规划和 3D 重建算法提供了综合基准。 此外,基于虚幻引擎和Airsim模拟器构建的数据集以及数据集中每个建筑物的手动注释的唯一实例标签,可以生成各种数据,例如2D深度图、2D/3D边界框 ,以及3D点云/网格分割等。具有物理引擎和照明系统的模拟器不仅可以产生各种数据,还可以让用户在拟议的城市环境中模拟汽车和无人机,以供未来研究
数据源 https://vcc.tech/UrbanScene3Dhttps://github.com/Linxius/UrbanScene3D
数据引用信息 Lin, Liqiang, et al. “Capturing, reconstructing, and simulating: the urbanscene3d dataset.” Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part VIII. Cham: Springer Nature Switzerland, 2022.

技术方案

• Linux, Python==3.6.8,
• CUDA == 11.2,
• pytorch == 1.9.0,
• mmdet3d == 0.17.1,
• Pytorch 1.7.0,

PETR方法整体框架

在这里插入图片描述图1 PETR方法框架

多视图图像被输入到主干网络(例如 ResNet)以提取多视图 2D 图像特征。 在 3D 坐标生成器中,所有视图共享的相机平截头体空间被离散化为 3D 网格。 meshgrid 坐标由不同的相机参数转换,从而产生 3D 世界空间中的坐标。 然后将 2D 图像特征和 3D 坐标注入建议的 3D 位置编码器以生成 3D 位置感知特征。 从查询生成器生成的对象查询通过与 transformer 解码器中的 3D 位置感知功能的交互进行更新。 更新后的查询进一步用于预测 3D 边界框和对象类。

在这里插入图片描述
图2 DETR3D和PETR方法对比

图2的(a)中,DETR对象查询与 2D 特征交互以执行 2D 检测。 (b) DETR3D 将生成的 3D 参考点重复投影到图像平面,并对 2D 特征进行采样以与解码器中的对象查询进行交互。 © PETR 通过将 3D 位置嵌入 (3D PE) 编码为 2D 图像特征来生成 3D 位置感知特征。 对象查询直接与 3D 位置感知功能交互并输出 3D 检测结果。
与 DETR3D 相比,所提出的 PETR 架构带来了许多优势。 它保持了原始 DETR 的端到端精神,同时避免了复杂的 2D 到 3D 投影和特征采样。 在推理期间,可以以离线方式生成 3D 位置坐标,并用作额外的输入位置嵌入。 实际应用起来相对容易一些。

3D Coodinates Generator转换方法

在这里插入图片描述
图3 空间转换示例

PETR的空间转换方法取自论文DGSN,如图3所示。相机视锥空间用( u , v , d ) (u, v, d)(u,v,d)表示,其中u , v u,vu,v是图像的像素坐标,d dd是和像平面正交的深度。世界空间用( x , y , z ) (x, y, z)(x,y,z)表示,利用相机内参可以将相机视锥空间变换到3D世界空间:
在这里插入图片描述

由于NuScenes数据集有6个相机,PETR和DGSN的空间转换会有些差异。首先将相机视锥空间离散成大小为在这里插入图片描述的三维网格,网格中的每一点在这里插入图片描述可以表示成:
在这里插入图片描述
考虑有6个相机,不同相机之间会存在交叠区域,3D世界空间的一点可能位于多个相机的视锥空间中,那么相机i ii的视锥空间中的点j jj在世界空间中的坐标可以表示为:
在这里插入图片描述
通过相机内外参可以将相机视锥空间变换到世界空间:
在这里插入图片描述
其中在这里插入图片描述是第个相机的变换矩阵(根据相机内外参计算得到)。
最后,根据给定的空间范围在这里插入图片描述将世界空间的点在这里插入图片描述进行归一化:
在这里插入图片描述

3D Position Encoder

在这里插入图片描述图4 3D位置编码器

经由Backbone和3D Coodinates Generator得到2D图像特征在这里插入图片描述及世界空间点在这里插入图片描述
在这里插入图片描述

在这里插入图片描述经过MLP得到3D Position Embbeding,再和在这里插入图片描述相加,得到3D感知特征:
在这里插入图片描述

其中N是相机的个数。最后将展开作为Transformer Decoder的输入。
为了说明3D PE的作用,从前视图像中随机挑选了3个像素点对应的PE,并计算这3个PE和其他所有视角图像PE的相似度,如图5所示。3D世界空间中左前方的一点理论上会同时出现在前视相机左侧和左前相机右侧,从第一行图像可以看出,PE相似度的确是符合这个先验认知的。所以可以证明3D PE的确建立了3D空间中不同视角的位置关联。
在这里插入图片描述
图5 3D PE相似度

Decoder、Head and Loss

PETR网络的后半部分基本就沿用DETR和DETR3D的配置:使用L LL个标准Transformer Decoder层迭代地更新object query;检测头和回归头都沿用DETR3D,回归目标中心相对于锚点的偏移量;分类使用focal loss,3D框回归使用L1 loss。
如下图6所示。referecne points经过inverse_sigmoid获得reference, 每层decoder都输出output,都有独立的reg和cls函数。没有进行对Δxyz进行迭代更新。
在这里插入图片描述

公开项目源

项目代码开源,分为多个PETR和PETRv2两个版本,其中PETRv2是一个统一的多视图图像 3D 感知框架。 基于 PETR,PETRv2 探索了时间建模的有效性,它利用先前帧的时间信息来增强 3D 对象检测。 3D PE 实现了不同帧对象位置的时间对齐。 进一步引入了特征引导的位置编码器,以提高 3D PE 的数据适应性。 为了支持高质量的 BEV 分割,PETRv2 通过添加一组分割查询提供了一种简单而有效的解决方案。 每个分割查询负责分割一个特定的 BEV 地图块。 PETRv2 在 3D 对象检测和 BEV 分割方面实现了最先进的性能。

项目开源地址:https://github.com/megvii-research/PETR

参考开源项目:

Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

概述:
在本文中,我们提出了一种稳健的3D检测器,称为跨模态变换器(CMT),用于端到端的3D多模态检测。在没有显式视图变换的情况下,CMT将图像和点云标记作为输入,并直接输出精确的3D边界框。多模态标记的空间对齐是通过将3D点编码为多模态特征来执行的。CMT的核心设计非常简单,同时其性能令人印象深刻。它在nuScenes测试集上实现了74.1%的NDS(最先进的单模型),同时保持了更快的推理速度。此外,即使缺少激光雷达,CMT也具有很强的鲁棒性。

项目代码:
https://github.com/junjie18/CMT
论文pdf:
https://arxiv.org/pdf/2301.01283v2.pdf

OpenLane 是迄今为止第一个真实世界和规模最大的 3D 车道数据集。的数据集从公众感知数据集中收集有价值的内容,为 1000 个路段提供车道和最近路径对象 (CIPO) 注释。 简而言之,OpenLane 拥有 200K 帧和超过 880K 仔细注释的通道。

地址:
https://github.com/OpenDriveLab/OpenLane

评价:由于变换器解码器中使用了大量的多模态令牌和全局注意力,因此计算成本相对较大。为了解决这个问题,可能需要在两个方向上做出一些努力。第一个是减少多模式令牌的冗余。

CAPE: Camera View Position Embedding for Multi-View 3D Object Detection

概述:
在本文中,解决了从多视图图像中检测 3D 对象的问题。 当前基于查询的方法依赖于全局 3D 位置嵌入 (PE) 来学习图像和 3D 空间之间的几何对应关系。 我们声称直接交互 2D 图像特征与全局 3D PE 可能会增加学习视图转换的难度,这是由于相机外在因素的变化。 因此,提出了一种基于 CAMera 视图位置嵌入的新方法,称为 CAPE。 在局部相机视图坐标系而不是全局坐标系下形成 3D 位置嵌入,这样 3D 位置嵌入就不会编码相机外部参数。 此外,通过利用先前帧的对象查询和编码自我运动来增强 3D 对象检测,将CAPE 扩展到时间建模。 CAPE 在 nuScenes 数据集上的所有无 LiDAR 方法中实现了最先进的性能(61.0% NDS 和 52.5% mAP)。

项目代码:
https://github.com/kaixinbear/CAPE
https://github.com/PaddlePaddle/Paddle3D
论文pdf:
https://arxiv.org/abs/1606.09375

Time Will Tell: New Outlooks and A Baseline for Temporal Multi-View 3D Object Detection

概述:
虽然最近的纯相机 3D 检测方法利用了多个时间步长,但它们使用的有限历史极大地阻碍了时间融合可以改善物体感知的程度。 观察现有作品对多帧图像的融合是时间立体匹配的实例,发现性能受到 1)匹配分辨率的低粒度和 2)有限产生的次优多视图设置之间的相互作用的阻碍 历史使用。 理论和实证分析表明,视图之间的最佳时间差异对于不同的像素和深度有显着差异,因此有必要在长期历史上融合许多时间步长。 在调查的基础上,从长期的图像观察历史中生成成本量,通过更优化的多视图匹配设置来补偿粗糙但有效的匹配分辨率。 此外,将用于长期、粗略匹配的每帧单目深度预测与短期、细粒度匹配相结合,发现长期和短期时间融合具有高度互补性。 在保持高效率的同时,框架在 nuScenes 上设置了新的最先进技术,在测试集上取得了第一名,并在验证集上以 5.2% 的 mAP 和 3.7% 的 NDS 优于之前的最佳技术。

训练代码和预训练模型以及项目代码:
https://github.com/divadi/solofusion
论文pdf:
https://arxiv.org/pdf/2210.02443v1.pdf

Je suppose que tu aimes

Origine blog.csdn.net/weixin_44348719/article/details/131091984
conseillé
Classement