Enlace original: https://arxiv.org/abs/2303.08333
1. Introducción
A menudo, el ruido de los parámetros de la cámara y los escaneos LIDAR pueden hacer que las funciones del BEV se vean contaminadas con ruido no deseado. El modelo de difusión tiene capacidades de eliminación de ruido y puede restaurar muestras ruidosas a datos ideales. Este artículo propone DiffBEV, que utiliza el modelo de probabilidad de difusión condicional (DPM) para mejorar la calidad de las características de BEV. Luego, la atención cruzada fusiona la salida del modelo de difusión condicional con las características originales del BEV.
DiffBEV puede acceder a diferentes ramas de tareas posteriores y realizar capacitación de un extremo a otro.
3. Método
3.1 Descripción general
Como se muestra en la figura siguiente, el modelo de este artículo se divide en columna vertebral de vista de imagen, transformador de vista, modelo de difusión condicional, atención cruzada y decodificador relacionado con tareas.
En la implementación real, LSS se utiliza como transformador de vista predeterminado.
3.2 Modelo de probabilidad de difusión condicional
3.2.1 Modelo de probabilidad de difusión
Este artículo utiliza las características de salida del transformador de visión como condiciones para el modelo de difusión. Sea x T x_TXtObedecer la distribución normal estándar N ( 0 , I ) \mathcal{N}(0,I)norte ( 0 ,I ) ruido, el modelo de difusión transforma gradualmentex T x_TXtConvertir a muestra original x 0 x_0X0. Sea el tésimo ( 0 ≤ t ≤ T ) t(0\leq t\leq T)t ( 0≤t≤La varianza del paso T ) se registra comoβ t \beta_tbt.
El proceso directo del modelo de probabilidad de difusión condicional es el siguiente: q ( xt ∣ xt − 1 ) ∼ N ( xt ; 1 − β txt − 1 , β t I ) q(x_t|x_{t-1})\sim \mathcal{ N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)q ( xt∣x _t - 1)∼norte ( xt;1−btXt - 1,btI ) 记α t = 1 − β t , α ˉ t = ∏ s = 1 t α s \alpha_t=1-\beta_t,\bar{\alpha}_t=\prod_{s=1}^t\alpha_sat=1−bt,aˉt=∏s = 1tas. Entonces el ttésimoMuestra ruidosa q en el paso t ( xt ∣ x 0 ) ∼ N ( xt ; α ˉ tx 0 , ( 1 − α ˉ t ) I ) xt ∼ α ˉ tx 0 + 1 − α ˉ t ϵ q(x_t|x_0 ) \sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)\\x_t\sim\sqrt{\bar{\alpha } _t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilonq ( xt∣x _0)∼norte ( xt;aˉtX0,( 1−aˉt) yo )Xt∼aˉtX0+1−aˉtϵ incrementoϵ ∼ N ( 0 , I ) \epsilon\sim\mathcal{N}(0,I)ϵ∼norte ( 0 ,yo ) .
El proceso de eliminación de ruido corrige gradualmente las muestras ruidosasxt x_tXtDefinitivamente: p θ ( xt − 1 ∣ xt ) ∼ N ( xt − 1 ; μ θ ( xt , t ) , Σ θ ( xt , t ) ) p_\theta(x_{t-1}| x_t)\sim\ mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_\theta(x_t,t));pagi( xt - 1∣x _t)∼norte ( xt - 1;metroi( xt,t ) ,Si( xt,t ))其中Σ θ ( xt , t ) \Sigma_\theta(x_t,t)Si( xt,t ) es el predictor de covarianza,ϵ θ ( xt , t ) \epsilon_\theta(x_t,t)ϵi( xt,t ) es el modelo de eliminación de ruido. Este artículo utiliza una variante típica de U-Net como modelo de eliminación de ruido.
3.2.2 Diseño de condiciones
Hay 3 tipos de condiciones opcionales: (1) La característica BEV original FO − BEV ∈ RC × H × WF^{O-BEV}\in\mathbb{R}^{C\times H\times salida del transformador de vista W }FO − SER V∈RC × H × W ; (2) Características semánticas FS − BEV ∈ RC × H × WF^{S-BEV}\in\mathbb{R}^{C\times H\times W} aprendidasde la distribución de profundidadFS − SER V∈RC × H × W;(3)FO − BEVF^{O-BEV}FO − BE Vsum FS− BEVF^{S-BEV}FS − BE V suma.
El transformador de vista predice la distribución de profundidadF d ∈ R c × h × w F^d\in\mathbb{R}^{c\times h\times w}Fd∈Rc × alto × ancho . Utilice1 × 1 1\times11×1 convolución convierte el número de canales y convierteF d F_dFreLa interpolación es FS − BEVF^{S-BEV}FS − BE V , lo que lo hace igual aFO − BEVF^{O-BEV}FO − BE V tienen las mismas dimensiones.
El paso anterior no está muy claro, h, wh, wh ,¿Es w el largo y el ancho de la imagen? En caso afirmativo, ¿cómo obtener las funciones de BEV a partir de las funciones de la vista de imagen mediante interpolación?
Este artículo espera que al eliminar gradualmente el ruido de las muestras, el modelo de difusión condicional pueda ayudar a conocer el contenido detallado de los objetos, como límites precisos y formas con mucho detalle. Cuando se agrega ruido a las condiciones, es lo mismo que el DPM estándar; pero cuando se elimina el ruido, se utiliza la eliminación de ruido de modulación condicional, como se muestra en la figura anterior.
en ttPaso t , dadas las características ruidosas de BEVxt x_tXty condición xcond x_{cond}Xco n d,xt x_tXtse codifica aún más y se pasa a la multiplicación por elementos con xcond x_{cond}Xco n dInteracción.
3.3 Atención cruzada
Después de obtener el resultado del modelo de difusión condicional, diseñe atención cruzada para corregir las características originales del BEV, como se muestra en la siguiente figura.
El resultado del modelo de difusión condicional es KKK yVVV , la característica BEV original esQQQ。公式为CA ( Q , K , W ) = A ttn ( QW i Q , KW i K , VW i V ) WO ut A ttn ( Q , K , V ) = softmax ( QKT dk ) V CA(Q, K,W)=Atención(QW^Q_i,KW^K_i,VW^V_i)W^{Fuera}\\Atención(Q,K,V)=\text{softmax}(\frac{QK^T}{\ raíz cuadrada{d_k}})VC A ( Q ,k ,W )=A t n ( Q WiQ,KW _ik,VW _iV) Wfuera _ _A t n ( Q ,k ,V )=softmax (dkq kt) V.
3.4 Pérdida de entrenamiento
Pérdida de profundidad . Dada la matriz de parámetros internos K i ∈ R 3 × 3 K_i\in\mathbb{R}^{3\times3}kyo∈R3 × 3 , matriz de rotaciónR i ∈ R 3 × 3 R_i\in\mathbb{R}^{3\times3}Ryo∈R3 × 3 y matriz de traslaciónti ∈ R 3 t_i\in\mathbb{R}^3tyo∈R3. Introducir pérdida de profundidadL profundidad \mathcal{L}_{profundidad}lprofundidad _ _ _Entrenamiento asistido. Utilice pérdida de entropía cruzada binaria (BCE). Sea el mapa de profundidad previsto D i D_iDyo,则深度损失如下:P i = K i (R i P + ti), D i ∗ = uno _ caliente (P i), L profundidad = BCE (D i ∗, Di ) P_i=K_i(R_iP+t_i ),D^*_i=uno\_hot(P_i),\mathcal{L}_{profundidad}=\text{BCE}(D_i^*,D_i)PAGyo=kyo( r.yoPAG+tyo) ,Di∗=uno _ caliente ( P _ _ _ _yo) ,lprofundidad _ _ _=antes de Cristo ( rei∗,Dyo) aquíPP__P es la coordenada del punto en la nube de puntos láser,P i P_iPAGyoes que esta en el iiCoordenadas proyectadas en las imágenes que veo, one_hot solo maneja la dimensión de profundidad.
Pérdida por difusión . deja que estoEl ruido gaussiano en el paso t es z ˉ t \bar{z}_tzˉt, entonces la pérdida por difusión es L diff = E [ ∥ z ˉ t − Σ θ ( α ˉ tx 0 + 1 − α ˉ tz ˉ t , t ) ∥ 2 ] \mathcal{L}_{diff}=\mathbb{ E }[\|\bar{z}_t-\Sigma_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\bar{z}_t,t ) \|^2]ld i ff=mi [ ∥zˉt−Si(aˉtX0+1−aˉtzˉt,t ) ∥2 ]
Pérdida de misión. La pérdida total es la suma ponderada de la pérdida de segmentación/detección de BEV, la pérdida de profundidad y la pérdida de difusión.
3.5 Decodificador de tareas
El cabezal de segmentación BEV utiliza una red residual; el cabezal de detección utiliza el cabezal de detección de CenterPoint.
4. Experimentar
4.3 Segmentación semántica BEV
LSS es preciso para la segmentación de objetivos estáticos con una amplia cobertura, porque los objetivos dinámicos suelen ser pequeños y aparecen con poca frecuencia.
DiffBEV tiene importantes mejoras de rendimiento en la segmentación de objetos estáticos y dinámicos, porque DPM puede reducir el ruido y agregar más información espacial a los objetos de interés.
4.4 Detección de objetivos 3D
Tras la introducción del modelo de difusión condicional, todos los indicadores mejoraron. Esto se debe a que el modelo puede refinar gradualmente las características BEV originales e intercambiar contexto semántico de forma interactiva a través de la atención cruzada.
4.5 Estudios de ablación
4.5.1 Diseño condicional
Los experimentos sobre segmentación de carreteras estáticas muestran que el uso de diferentes condiciones puede guiar el modelo para obtener características BEV discriminativas. donde se utiliza FS − BEVF^{S-BEV}FS − BE V tiene el mejor rendimiento,FO − BEVF^{O-BEV}FEl desempeño de O − BE V es relativamente peor.
4.5.2 Mecanismo de interacción de funciones
Este artículo compara tres mecanismos de interacción de características, a saber, concatenación, suma y atención cruzada.
El uso de la atención cruzada puede aprender mejores características de BEV, lo que es beneficioso para las tareas de percepción posteriores. Considerando de manera integral el diseño condicional y el mecanismo de interacción de características, use FS − BEVF^{S-BEV}FEl rendimiento de la combinación de S − BE V y atención cruzada es óptimo.
4.5.3 Mecanismo de codificación para muestras BEV ruidosas
En el modelo de difusión condicional, para muestras BEV ruidosas xt x_tXt, este artículo considera dos métodos de codificación: (1) calcular su mapa semántico de autoatención; (2) obtener un mapa de afinidad refinado (mapa de afinidad) mediante convolución. Usar el primero tiene un mejor rendimiento, pero el segundo tiene menos carga computacional.
4.6 Más cambiadores de vista
Se realizaron experimentos reemplazando LSS con otros transformadores de visualización y se descubrió que DiffBEV tiene un rendimiento mayor que el método original sin modelo de difusión.
4.7 Análisis visual
La visualización muestra que DiffBEV puede proporcionar un mapa semántico más preciso y puede resolver detalles detallados (como la separación entre vehículos adyacentes, límites claros de carreteras estáticas).
Material suplementario
A. Pérdida de entrenamiento
A.1 Pérdida de segmentación
Para MMSegmentación semántica de categorías M , la pérdida de entrenamiento se puede descomponer enMMM pérdidas de clasificación binaria ponderada: L wce = ∑ c = 1 M wc N pos [ − ∑ i = 1 N posyi log pci − ∑ i = 1 N neg ( 1 − yi ) log ( 1 − pci ) ] \ mathcal {L}_{wce}=\sum_{c=1}^M\frac{w_c}{N_{pos}}[-\sum_{i=1}^{N_{pos}}y_i\log p_{ci }-\sum_{i=1}^{N_{neg}}(1-y_i)\log(1-p_{ci})]l¿qué ?=c = 1∑mnortepos _wc[ -yo = 1∑nortepos _yyoiniciar sesiónpagc yo−yo = 1∑norten y g( 1−yyo)iniciar sesión ( 1−pagc yo)] dondepci p_{ci}pagc yoes la confianza de clasificación prevista para cada píxel, wc w_cwces el peso de la categoría calculado en función de la distribución de la categoría. yi y_iyyoRepresenta la etiqueta semántica del píxel. N pos N_ {pos}nortepos _sumaN neg N_{neg}norten y ges el número de muestras positivas y negativas.