[Notas de papel] DiffBEV: modelo de difusión condicional para la percepción a vista de pájaro

Enlace original: https://arxiv.org/abs/2303.08333

1. Introducción

  A menudo, el ruido de los parámetros de la cámara y los escaneos LIDAR pueden hacer que las funciones del BEV se vean contaminadas con ruido no deseado. El modelo de difusión tiene capacidades de eliminación de ruido y puede restaurar muestras ruidosas a datos ideales. Este artículo propone DiffBEV, que utiliza el modelo de probabilidad de difusión condicional (DPM) para mejorar la calidad de las características de BEV. Luego, la atención cruzada fusiona la salida del modelo de difusión condicional con las características originales del BEV.
  DiffBEV puede acceder a diferentes ramas de tareas posteriores y realizar capacitación de un extremo a otro.

3. Método

3.1 Descripción general

  Como se muestra en la figura siguiente, el modelo de este artículo se divide en columna vertebral de vista de imagen, transformador de vista, modelo de difusión condicional, atención cruzada y decodificador relacionado con tareas.
Insertar descripción de la imagen aquí
  En la implementación real, LSS se utiliza como transformador de vista predeterminado.

3.2 Modelo de probabilidad de difusión condicional

3.2.1 Modelo de probabilidad de difusión

  Este artículo utiliza las características de salida del transformador de visión como condiciones para el modelo de difusión. Sea x T x_TXtObedecer la distribución normal estándar N ( 0 , I ) \mathcal{N}(0,I)norte ( 0 ,I ) ruido, el modelo de difusión transforma gradualmentex T x_TXtConvertir a muestra original x 0 x_0X0. Sea el tésimo ( 0 ≤ t ≤ T ) t(0\leq t\leq T)t ( 0tLa varianza del paso T ) se registra comoβ t \beta_tbt.
  El proceso directo del modelo de probabilidad de difusión condicional es el siguiente: q ( xt ∣ xt − 1 ) ∼ N ( xt ; 1 − β txt − 1 , β t I ) q(x_t|x_{t-1})\sim \mathcal{ N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)q ( xt∣x _t - 1)norte ( xt;1bt Xt - 1,btI )  记α t = 1 − β t , α ˉ t = ∏ s = 1 t α s \alpha_t=1-\beta_t,\bar{\alpha}_t=\prod_{s=1}^t\alpha_sat=1bt,aˉt=s = 1tas. Entonces el ttésimoMuestra ruidosa q en el paso t ( xt ∣ x 0 ) ∼ N ( xt ; α ˉ tx 0 , ( 1 − α ˉ t ) I ) xt ∼ α ˉ tx 0 + 1 − α ˉ t ϵ q(x_t|x_0 ) \sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)\\x_t\sim\sqrt{\bar{\alpha } _t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilonq ( xt∣x _0)norte ( xt;aˉt X0,( 1aˉt) yo )Xtaˉt X0+1aˉt ϵ incrementoϵ ∼ N ( 0 , I ) \epsilon\sim\mathcal{N}(0,I)ϵnorte ( 0 ,yo ) .
  El proceso de eliminación de ruido corrige gradualmente las muestras ruidosasxt x_tXtDefinitivamente: p θ ( xt − 1 ∣ xt ) ∼ N ( xt − 1 ; μ θ ( xt , t ) , Σ θ ( xt , t ) ) p_\theta(x_{t-1}| x_t)\sim\ mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_\theta(x_t,t));pagi( xt - 1∣x _t)norte ( xt - 1;metroi( xt,t ) ,Si( xt,t ))其中Σ θ ( xt , t ) \Sigma_\theta(x_t,t)Si( xt,t ) es el predictor de covarianza,ϵ θ ( xt , t ) \epsilon_\theta(x_t,t)ϵi( xt,t ) es el modelo de eliminación de ruido. Este artículo utiliza una variante típica de U-Net como modelo de eliminación de ruido.

3.2.2 Diseño de condiciones

  Hay 3 tipos de condiciones opcionales: (1) La característica BEV original FO − BEV ∈ RC × H × WF^{O-BEV}\in\mathbb{R}^{C\times H\times salida del transformador de vista W }FO SER VRC × H × W ; (2) Características semánticas FS − BEV ∈ RC × H × WF^{S-BEV}\in\mathbb{R}^{C\times H\times W} aprendidasde la distribución de profundidadFS SER VRC × H × W;(3)FO − BEVF^{O-BEV}FO BE Vsum FS− BEVF^{S-BEV}FS BE V suma.
  El transformador de vista predice la distribución de profundidadF d ∈ R c × h × w F^d\in\mathbb{R}^{c\times h\times w}FdRc × alto × ancho . Utilice1 × 1 1\times11×1 convolución convierte el número de canales y convierteF d F_dFreLa interpolación es FS − BEVF^{S-BEV}FS BE V , lo que lo hace igual aFO − BEVF^{O-BEV}FO BE V tienen las mismas dimensiones.

El paso anterior no está muy claro, h, wh, wh ,¿Es w el largo y el ancho de la imagen? En caso afirmativo, ¿cómo obtener las funciones de BEV a partir de las funciones de la vista de imagen mediante interpolación?

  Este artículo espera que al eliminar gradualmente el ruido de las muestras, el modelo de difusión condicional pueda ayudar a conocer el contenido detallado de los objetos, como límites precisos y formas con mucho detalle. Cuando se agrega ruido a las condiciones, es lo mismo que el DPM estándar; pero cuando se elimina el ruido, se utiliza la eliminación de ruido de modulación condicional, como se muestra en la figura anterior.
  en ttPaso t , dadas las características ruidosas de BEVxt x_tXty condición xcond x_{cond}Xco n dxt x_tXtse codifica aún más y se pasa a la multiplicación por elementos con xcond x_{cond}Xco n dInteracción.

3.3 Atención cruzada

  Después de obtener el resultado del modelo de difusión condicional, diseñe atención cruzada para corregir las características originales del BEV, como se muestra en la siguiente figura.
Insertar descripción de la imagen aquí
  El resultado del modelo de difusión condicional es KKK yVVV , la característica BEV original esQQQ。公式为CA ( Q , K , W ) = A ttn ( QW i Q , KW i K , VW i V ) WO ut A ttn ( Q , K , V ) = softmax ( QKT dk ) V CA(Q, K,W)=Atención(QW^Q_i,KW^K_i,VW^V_i)W^{Fuera}\\Atención(Q,K,V)=\text{softmax}(\frac{QK^T}{\ raíz cuadrada{d_k}})VC A ( Q ,k ,W )=A t n ( Q WiQ,KW _ik,VW _iV) Wfuera _ _A t n ( Q ,k ,V )=softmax (dk q kt) V.

3.4 Pérdida de entrenamiento

  Pérdida de profundidad . Dada la matriz de parámetros internos K i ∈ R 3 × 3 K_i\in\mathbb{R}^{3\times3}kyoR3 × 3 , matriz de rotaciónR i ∈ R 3 × 3 R_i\in\mathbb{R}^{3\times3}RyoR3 × 3 y matriz de traslaciónti ∈ R 3 t_i\in\mathbb{R}^3tyoR3. Introducir pérdida de profundidadL profundidad \mathcal{L}_{profundidad}lprofundidad _ _ _Entrenamiento asistido. Utilice pérdida de entropía cruzada binaria (BCE). Sea el mapa de profundidad previsto D i D_iDyo,则深度损失如下:P i = K i (R i P + ti), D i ∗ = uno _ caliente (P i), L profundidad = BCE (D i ∗, Di ) P_i=K_i(R_iP+t_i ),D^*_i=uno\_hot(P_i),\mathcal{L}_{profundidad}=\text{BCE}(D_i^*,D_i)PAGyo=kyo( r.yoPAG+tyo) ,Di=uno _ caliente ( P _ _ _ _yo) ,lprofundidad _ _ _=antes de Cristo ( rei,Dyo) aquíPP__P es la coordenada del punto en la nube de puntos láser,P i P_iPAGyoes que esta en el iiCoordenadas proyectadas en las imágenes que veo, one_hot solo maneja la dimensión de profundidad.

  Pérdida por difusión . deja que estoEl ruido gaussiano en el paso t es z ˉ t \bar{z}_tzˉt, entonces la pérdida por difusión es L diff = E [ ∥ z ˉ t − Σ θ ( α ˉ tx 0 + 1 − α ˉ tz ˉ t , t ) ∥ 2 ] \mathcal{L}_{diff}=\mathbb{ E }[\|\bar{z}_t-\Sigma_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\bar{z}_t,t ) \|^2]ld i ff=mi [ zˉtSi(aˉt X0+1aˉt zˉt,t ) 2 ]
  Pérdida de misión. La pérdida total es la suma ponderada de la pérdida de segmentación/detección de BEV, la pérdida de profundidad y la pérdida de difusión.

3.5 Decodificador de tareas

  El cabezal de segmentación BEV utiliza una red residual; el cabezal de detección utiliza el cabezal de detección de CenterPoint.

4. Experimentar

4.3 Segmentación semántica BEV

  LSS es preciso para la segmentación de objetivos estáticos con una amplia cobertura, porque los objetivos dinámicos suelen ser pequeños y aparecen con poca frecuencia.
  DiffBEV tiene importantes mejoras de rendimiento en la segmentación de objetos estáticos y dinámicos, porque DPM puede reducir el ruido y agregar más información espacial a los objetos de interés.

4.4 Detección de objetivos 3D

  Tras la introducción del modelo de difusión condicional, todos los indicadores mejoraron. Esto se debe a que el modelo puede refinar gradualmente las características BEV originales e intercambiar contexto semántico de forma interactiva a través de la atención cruzada.

4.5 Estudios de ablación

4.5.1 Diseño condicional

  Los experimentos sobre segmentación de carreteras estáticas muestran que el uso de diferentes condiciones puede guiar el modelo para obtener características BEV discriminativas. donde se utiliza FS − BEVF^{S-BEV}FS BE V tiene el mejor rendimiento,FO − BEVF^{O-BEV}FEl desempeño de O BE V es relativamente peor.

4.5.2 Mecanismo de interacción de funciones

  Este artículo compara tres mecanismos de interacción de características, a saber, concatenación, suma y atención cruzada.
  El uso de la atención cruzada puede aprender mejores características de BEV, lo que es beneficioso para las tareas de percepción posteriores. Considerando de manera integral el diseño condicional y el mecanismo de interacción de características, use FS − BEVF^{S-BEV}FEl rendimiento de la combinación de S BE V y atención cruzada es óptimo.

4.5.3 Mecanismo de codificación para muestras BEV ruidosas

  En el modelo de difusión condicional, para muestras BEV ruidosas xt x_tXt, este artículo considera dos métodos de codificación: (1) calcular su mapa semántico de autoatención; (2) obtener un mapa de afinidad refinado (mapa de afinidad) mediante convolución. Usar el primero tiene un mejor rendimiento, pero el segundo tiene menos carga computacional.

4.6 Más cambiadores de vista

  Se realizaron experimentos reemplazando LSS con otros transformadores de visualización y se descubrió que DiffBEV tiene un rendimiento mayor que el método original sin modelo de difusión.

4.7 Análisis visual

  La visualización muestra que DiffBEV puede proporcionar un mapa semántico más preciso y puede resolver detalles detallados (como la separación entre vehículos adyacentes, límites claros de carreteras estáticas).

Material suplementario

A. Pérdida de entrenamiento

A.1 Pérdida de segmentación

  Para MMSegmentación semántica de categorías M , la pérdida de entrenamiento se puede descomponer enMMM pérdidas de clasificación binaria ponderada: L wce = ∑ c = 1 M wc N pos [ − ∑ i = 1 N posyi log ⁡ pci − ∑ i = 1 N neg ( 1 − yi ) log ⁡ ( 1 − pci ) ] \ mathcal {L}_{wce}=\sum_{c=1}^M\frac{w_c}{N_{pos}}[-\sum_{i=1}^{N_{pos}}y_i\log p_{ci }-\sum_{i=1}^{N_{neg}}(1-y_i)\log(1-p_{ci})]l¿qué ?=c = 1mnortepos _wc[ -yo = 1nortepos _yyoiniciar sesiónpagc yoyo = 1norten y g( 1yyo)iniciar sesión ( 1pagc yo)] dondepci p_{ci}pagc yoes la confianza de clasificación prevista para cada píxel, wc w_cwces el peso de la categoría calculado en función de la distribución de la categoría. yi y_iyyoRepresenta la etiqueta semántica del píxel. N pos N_ {pos}nortepos _sumaN neg N_{neg}norten y ges el número de muestras positivas y negativas.

Supongo que te gusta

Origin blog.csdn.net/weixin_45657478/article/details/133239382
Recomendado
Clasificación