Lecture de la vitesse du papier -- BVerse

论文速读 – BVerse : Perception et prédiction unifiées dans Birds-Eye-View pour la conduite autonome centrée sur la vision

先赞后看,养成好习惯。有帮助的话,点波关注!我会坚持更新,感谢您的支持!

Références :
1. BEVerse
2. Analysis of 3D Vision Workshop
3. Evaluation index mAP
4. NuScenes dataset evaluation index

1. Résumé

Le réseau BEVerse est proposé dans cet article, qui est une architecture unifiée pour effectuer des tâches de perception et de prédiction basées sur plusieurs visions. Utilisation d'images multi-horodatage et multi-vues pour l'extraction et le levage de caractéristiques partagées afin de générer 4D BEVdes représentations. Après la compensation de l'auto-mouvement, un encodeur spatio-temporel est utilisé pour une extraction supplémentaire des caractéristiques BEV. Enfin, un décodeur multi-tâches est utilisé pour l'inférence et la prédiction conjointes. Sur le décodeur, un 栅格采样器(échantillonneur de grille) est proposé pour générer des caractéristiques BEV prenant en charge différentes plages et granularités. De plus, une méthode de flux itératif est conçue pour obtenir une prédiction efficace en mémoire. Des expériences ont montré que 时域信息可以提升3D目标检测和语义地图的构建, et l'apprentissage multi-tâches sont également bénéfiques pour la prédiction de mouvement.


2. Présentation

insérez la description de l'image ici
Travail principal :

  • Un framework BEVverse pour la représentation BEV multi-caméras est proposé 统一了感知和预测任务.
  • Méthodes proposées 迭代流pour une prédiction future efficace et un apprentissage multi-tâches.
  • En tant que modèle multi-tâches, BEVerse a atteint le niveau sota dans la détection d'objets 3D, la construction de cartes sémantiques et les tâches de prédiction de mouvement.

Travaux connexes :
détection d'objets 3D : FCOS3D, PGD, DETR3D, PETR, BEVDet
construction de cartes sémantiques : HDMapNet (construction en ligne),
prédiction de mouvement BEVSegFormer : méthodes d'apprentissage majoritairement non supervisées, FIERY (le premier framework de prédiction de mouvement BEV),
apprentissage multi-tâches StretchBEV : Le travail se concentre sur la façon de concevoir une structure partagée et comment équilibrer et optimiser le multitâche. FAFNet, MotionNet

3. Réseau et méthode

BVerse prend M images de caméra à vue panoramique à partir de N horodatages et prend en entrée les paramètres de mouvement de l'ego du véhicule et de caméra. 3D boundingboxLe résultat des données contient les , 语义地图et , des obstacles dans l'image actuelle 运动预测. BVerse 四个子模块se compose de : 图像-视图编码器、视图转换器、时空BEV编码器和多任务解码器.
insérez la description de l'image ici

3.1 Encodeur de vue d'image

Utilisez SwinTransformer comme réseau fédérateur (backbone) pour créer des fonctionnalités à plusieurs niveaux C2, C3, C4 et C5, et la largeur et la hauteur de chaque couche sont réduites de moitié. Utilisez C5 suréchantillonné dans BEVDet et concaténez-le avec C4.

3.2 Convertisseur de vue

Étant donné que les informations de synchronisation 3D doivent être apprises, le convertisseur de vue 多视图特征Fproduira BEV特征G. En utilisant LSS(LiftSplat-Shoot)le procédé, la caractéristique F utilise un traitement de convolution 1*1 pour prédire la distribution de profondeur de classification F'.

3.3 Codeur spatio-temporel BEV

Tout d'abord, les trames passées sont alignées dans le temps.En utilisant la méthode FIERY, l'encodeur BEV se compose d'un ensemble de blocs temporels. Il comprend principalement des couches de convolution 3D et de regroupement global et de compression de caractéristiques intermédiaires.

3.4 Décodeur de tâche

Un décodeur multitâche est composé d'un ensemble parallèle et indépendant de décodeurs, et chaque décodeur de tâche comprend un échantillonneur de grille, un codeur de tâche et une tête de tâche. La fonction de l'échantillonneur de grille est de recadrer la zone spéciale de la tâche et de la convertir à la résolution idéale par interpolation bilinéaire. L'encodeur de tâche suit BEVDet, en utilisant les modules de base de ResNet pour construire un réseau fédérateur et en combinant des fonctionnalités multi-échelles similaires aux décodeurs de visualisation d'image.

3.5 Tête de sortie

Tête de détection d'objets 3D . L'écart de dimension avec le laser a disparu et le premier étage de CenterPoint est directement utilisé comme tête de détection 3D.
En-tête de création de carte sémantique .
Tête de prédiction de mouvement . Contrairement aux en-têtes ci-dessus qui ne s'intéressent qu'à l'image actuelle, la prédiction de mouvement est une prédiction de l'état futur. L'efficacité du module de prédiction FIERY est limitée par deux facteurs importants : (1) Chaque pixel BEV partage le vecteur latent global échantillonné φt, qui ne peut pas représenter l'incertitude de nombreux individus. (2) Initialiser uniquement l'état futur à partir de vecteurs latents échantillonnés, ce qui augmente la difficulté de prédiction. Différent de FIERY, nous proposons un schéma de flux itératif pour prédire et échantillonner directement des cartes latentes, qui peuvent séparer les incertitudes de différentes cibles.
insérez la description de l'image ici


4. Expériences et résultats

Dataset : Nuscenes, 1000 clips vidéo de conduite autonome, chaque clip 20s

  • 700 --> formation
  • 150 --> Vérifier
  • 150 --> essai

Critères d'évaluation :
3D目标检测: Indice d'évaluation du jeu de données NuScenes
mAP : aire sous la courbe PR, la valeur moyenne des différents types
ATE, ASE, AVE, AOE, AAE
语义地图构建: mIoU, comprenant principalement les lignes de voies, les passages pour piétons, les limites des routes
运动预测: IoU et VPQ(Future Qualité Panoptique Vidéo)
insérez la description de l'image ici

résultat :
insérez la description de l'image ici

Je suppose que tu aimes

Origine blog.csdn.net/weixin_36354875/article/details/126602249
conseillé
Classement