论文速读 – BVerse : Perception et prédiction unifiées dans Birds-Eye-View pour la conduite autonome centrée sur la vision
先赞后看,养成好习惯。有帮助的话,点波关注!我会坚持更新,感谢您的支持!
Références :
1. BEVerse
2. Analysis of 3D Vision Workshop
3. Evaluation index mAP
4. NuScenes dataset evaluation index
1. Résumé
Le réseau BEVerse est proposé dans cet article, qui est une architecture unifiée pour effectuer des tâches de perception et de prédiction basées sur plusieurs visions. Utilisation d'images multi-horodatage et multi-vues pour l'extraction et le levage de caractéristiques partagées afin de générer 4D BEV
des représentations. Après la compensation de l'auto-mouvement, un encodeur spatio-temporel est utilisé pour une extraction supplémentaire des caractéristiques BEV. Enfin, un décodeur multi-tâches est utilisé pour l'inférence et la prédiction conjointes. Sur le décodeur, un 栅格采样器
(échantillonneur de grille) est proposé pour générer des caractéristiques BEV prenant en charge différentes plages et granularités. De plus, une méthode de flux itératif est conçue pour obtenir une prédiction efficace en mémoire. Des expériences ont montré que 时域信息可以提升3D目标检测和语义地图的构建
, et l'apprentissage multi-tâches sont également bénéfiques pour la prédiction de mouvement.
2. Présentation
Travail principal :
- Un framework BEVverse pour la représentation BEV multi-caméras est proposé
统一了感知和预测任务
. - Méthodes proposées
迭代流
pour une prédiction future efficace et un apprentissage multi-tâches. - En tant que modèle multi-tâches, BEVerse a atteint le niveau sota dans la détection d'objets 3D, la construction de cartes sémantiques et les tâches de prédiction de mouvement.
Travaux connexes :
détection d'objets 3D : FCOS3D, PGD, DETR3D, PETR, BEVDet
construction de cartes sémantiques : HDMapNet (construction en ligne),
prédiction de mouvement BEVSegFormer : méthodes d'apprentissage majoritairement non supervisées, FIERY (le premier framework de prédiction de mouvement BEV),
apprentissage multi-tâches StretchBEV : Le travail se concentre sur la façon de concevoir une structure partagée et comment équilibrer et optimiser le multitâche. FAFNet, MotionNet
3. Réseau et méthode
BVerse prend M images de caméra à vue panoramique à partir de N horodatages et prend en entrée les paramètres de mouvement de l'ego du véhicule et de caméra. 3D boundingbox
Le résultat des données contient les , 语义地图
et , des obstacles dans l'image actuelle 运动预测
. BVerse 四个子模块
se compose de : 图像-视图编码器、视图转换器、时空BEV编码器和多任务解码器
.
3.1 Encodeur de vue d'image
Utilisez SwinTransformer comme réseau fédérateur (backbone) pour créer des fonctionnalités à plusieurs niveaux C2, C3, C4 et C5, et la largeur et la hauteur de chaque couche sont réduites de moitié. Utilisez C5 suréchantillonné dans BEVDet et concaténez-le avec C4.
3.2 Convertisseur de vue
Étant donné que les informations de synchronisation 3D doivent être apprises, le convertisseur de vue 多视图特征F
produira BEV特征G
. En utilisant LSS(LiftSplat-Shoot)
le procédé, la caractéristique F utilise un traitement de convolution 1*1 pour prédire la distribution de profondeur de classification F'.
3.3 Codeur spatio-temporel BEV
Tout d'abord, les trames passées sont alignées dans le temps.En utilisant la méthode FIERY, l'encodeur BEV se compose d'un ensemble de blocs temporels. Il comprend principalement des couches de convolution 3D et de regroupement global et de compression de caractéristiques intermédiaires.
3.4 Décodeur de tâche
Un décodeur multitâche est composé d'un ensemble parallèle et indépendant de décodeurs, et chaque décodeur de tâche comprend un échantillonneur de grille, un codeur de tâche et une tête de tâche. La fonction de l'échantillonneur de grille est de recadrer la zone spéciale de la tâche et de la convertir à la résolution idéale par interpolation bilinéaire. L'encodeur de tâche suit BEVDet, en utilisant les modules de base de ResNet pour construire un réseau fédérateur et en combinant des fonctionnalités multi-échelles similaires aux décodeurs de visualisation d'image.
3.5 Tête de sortie
Tête de détection d'objets 3D . L'écart de dimension avec le laser a disparu et le premier étage de CenterPoint est directement utilisé comme tête de détection 3D.
En-tête de création de carte sémantique .
Tête de prédiction de mouvement . Contrairement aux en-têtes ci-dessus qui ne s'intéressent qu'à l'image actuelle, la prédiction de mouvement est une prédiction de l'état futur. L'efficacité du module de prédiction FIERY est limitée par deux facteurs importants : (1) Chaque pixel BEV partage le vecteur latent global échantillonné φt, qui ne peut pas représenter l'incertitude de nombreux individus. (2) Initialiser uniquement l'état futur à partir de vecteurs latents échantillonnés, ce qui augmente la difficulté de prédiction. Différent de FIERY, nous proposons un schéma de flux itératif pour prédire et échantillonner directement des cartes latentes, qui peuvent séparer les incertitudes de différentes cibles.
4. Expériences et résultats
Dataset : Nuscenes, 1000 clips vidéo de conduite autonome, chaque clip 20s
- 700 --> formation
- 150 --> Vérifier
- 150 --> essai
Critères d'évaluation :
3D目标检测
: Indice d'évaluation du jeu de données NuScenes
mAP : aire sous la courbe PR, la valeur moyenne des différents types
ATE, ASE, AVE, AOE, AAE
语义地图构建
: mIoU, comprenant principalement les lignes de voies, les passages pour piétons, les limites des routes
运动预测
: IoU et VPQ
(Future Qualité Panoptique Vidéo)
résultat :