visualización Anti-proyección: la probabilidad de que el colapso de la magnitud de la recuperación: Interpretación ICCV9 papel

visualización Anti-proyección: la probabilidad de que el colapso de la magnitud de la recuperación: Interpretación ICCV9 papel

Visual Deprojection: Probabilístico recuperación de las dimensiones de contracción

 

 

Papeles enlace:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Balakrishnan_Visual_Deprojection_Probabilistic_Recovery_of_Collapsed_Dimensions_ICCV_2019_paper.pdf

resumen

Introducimos proyección visual: las tareas de recuperación a lo largo de las dimensiones de la imagen o vídeo doblado. Proyección se produce en cada caso, como la fotografía de larga exposición, la escena es dinámica en el tiempo plegada imagen desenfoque de movimiento de productos a, y la cámara porciones de esquina, la escena en la que la luz reflejada por el borde de la persiana se pliega a lo largo de las dimensiones espaciales para producir vídeo 1D. retroproyección es mal planteado - por lo general hay muchos solución razonable para una entrada dada. En primer lugar, propusimos un modelo probabilístico para captar la ambigüedad de la tarea. A continuación, se propone una estrategia de inferencia variacional para la red neuronal de convolución de la función de aproximación. Inferencia a partir de la muestra en el momento de la prueba, generada señal candidato probable de la señal original con una distribución de entrada dada en la misma proyección. Se evaluó el método de múltiples conjuntos de datos. Primero demostramos que este método puede restaurar la marcha humana y las imágenes faciales desde el espacio de proyección de vídeo, y luego demostrar que el método puede restaurar el movimiento de la imagen de desenfoque de proyección de vídeo digital a partir de un ejercicio extenuante por el tiempo obtenido.

1.       Introducción

La captura de datos visuales es típicamente una señal de alta dimensión a lo largo de una dimensión "plegada" proyección. Por ejemplo, una dimensión larga exposición, imagen de desenfoque de movimiento se proyecta a lo largo de la trayectoria vez que se genera por el [11, 25]. Reciente "ángulo de la cámara" por medio de la escena vertical de oclusión angular oculta la luz proyectada para generar 1D vídeo [4]. El médico de rayos x máquina espacio de proyección de radiografía, en la que la distribución de rayos x por el generador, la señal de imagen capturada detector impacto anatómica [26]. Teniendo en cuenta los datos de proyección, se puede sintetizar la señal original?

En este trabajo, se propone un algoritmo para realizar esta síntesis. Nuestro objetivo es restaurar a partir de imágenes y proyección de vídeo espacio y recuperar la imagen de vídeo de larga exposición obtenida por la proyección de la hora de. señal de proyección tridimensional de alta tarea de reversión es mal planteado, por lo que, en ausencia de una verdadera señal o unas limitaciones a priori, la tarea no es factible. Esto incluye ambigüedad espacial en la dirección de destino y la posición de proyección, la proyección y el tiempo en el "tiempo de la flecha" [43] (Fig. 1). Utilizamos el hecho de que, debido a la estructura compartida de un dominio dado, la mayor dimensión de la imagen natural eficaz es por lo general mucho más baja que la representación de píxeles. El acuerdo de Let con esta ambigüedad mediante la construcción de un modelo de probabilidad para la proyección dada a la generación de la señal. El modelo utilizado por nuestra red neuronal de convolución ( función de parámetros CNNs) implementó componentes. Variacional inferencia, obtenemos una función objetivo intuitiva. De este retroproyección muestreada en la red de prueba, dando como resultado consistente con una entrada de señal de proyección ejemplar razonable. Restaurar datos de alta dimensión de los datos de observación en la parte de visión por ordenador de la literatura es muy rica. La imagen de súper resolución sola [15], color de la imagen a [46] y el desenfoque de movimiento la eliminación de [14] es un caso especial. Aquí, nos centramos en la remoción completa del espacio de proyección o dimensión de tiempo, que puede conducir a graves pérdidas de información. Para nuestro conocimiento, nuestro enfoque es los primeros métodos de recuperación universales, hay una dimensión colapsado.

En base a los temas relacionados ideas, para desarrollar una primera solución para el aspecto y movimiento señales (en el caso del vídeo) extrapolado a las dimensiones invisibles. En particular, nos aprovechamos de los últimos desarrollos basados en redes neuronales tarea de predicción completos y aleatorios [2, 17, 44]. Evaluamos nuestro trabajo, tanto cuantitativa como cualitativa. Se demuestra que nuestro método puede recuperarse de la distribución bidimensional imagen de vídeo de la marcha espacial y temporal de, restaurar la imagen de la cara de la proyección unidimensional. También demuestran que nuestro método puede utilizar un móvil conjuntos de datos de vídeo en movimiento borrosa MNIST condiciones de modelado de distribución de imagen [37].

 

 

2.       Trabajo relacionado

2.1.  Cámaras esquina

El papel central de proyección en la visión por ordenador, formación de imágenes se inicia desde la etapa inicial, es decir, la luz se proyecta sobre un plano de dos dimensiones de la luz emitida desde el mundo en tres dimensiones. Estamos preocupados por un tipo especial de proyección, en el que la señal de interés en una dimensión de alta dimensión plegada para crear los datos de observación.

Esquina cámara oculta refleja luz en la escena, está bloqueado por un borde del obstáculo, por lo que "ver alrededor de la esquina" [4]. La luz reflejada de una escena desde un ángulo integrada verticalmente con respecto a la misma posición angular, y genera vídeo 1D (unidimensional tiempo +). El estudio utilizó un gradiente de vídeo en tiempo dimensiones más o menos indican la posición angular del cuerpo con respecto a las esquinas, pero no hay ninguna escena de reconstrucción oculto. Como primer paso, esta difícil tarea de reconstrucción, mostramos el vídeo y las imágenes pueden ser restaurados después de doblar una dimensión espacial.

2.2.  comprimido Sensing

Soluciones de compresión técnica de detección underdetermined sistema lineal mediante la búsqueda, los datos de observación con eficacia limitada de la señal reconstruida [8, 12]. Esto es posible debido a que la redundancia es adecuado en función de la naturaleza de la señal. Hay varias maneras de mostrar que incluso en el caso donde los datos se selecciona al azar, puede ser de una pequeña cantidad (optimización convexa a través de 1000s señal exactamente reconstituidas) de datos [6, 7, 16]. Que se trata de una variante extrema en la que se pierde por completo una señal unidimensional. También utilizamos para resolver este método de aprendizaje basado en problemas, lo que produce una distribución de señal de potencial, en lugar de una estimación.

2.3.  Imagen condicional / Video Síntesis y futuro de predicción de cuadro

Sobre la base de las imágenes de síntesis y de redes neuronales de vídeo ha sido una preocupación generalizada. En la condición de la síntesis de imagen, la imagen se sintetiza basándose en otra información, tal como otro o imagen de la etiqueta base (imagen a la traducción imagen) las mismas dimensiones [5, 17, 29, 38, 42, 47]. En contraste con nuestro trabajo, la mayoría de estos estudios se basan en los datos de salida de las mismas dimensiones. algoritmo de vídeo síntesis centra en generar incondicional [33, 39, 40], o de vídeo al convertidor de vídeo [9, 34, 41]. En la predicción de la siguiente trama de vídeo, imagen sintetizar marco pasado de acuerdo con una o más. Algunos algoritmo de generación de vídeo como un problema al azar [2, 24, 44], utilizando Autocoder variacional ( de VAE) del marco del estilo [23]. formularios de entrada y de salida de estos temas y que son similares, pero las entradas de información son diferentes. En estos estudios, hemos ganado una cierta penetración de fórmula aleatoria.

2.4.  Invertir una imagen en movimiento-borrosa de vídeo

Exploramos una imagen de vídeo formulario de solicitud es borrosa de la circulación dramática, estas imágenes están siendo recogidos por los fotones en la escena en mucho tiempo creado. Dos estudios recientes sugieren un método para recuperar imágenes individuales de desenfoque de movimiento para la secuencia de vídeo determinada [18, 30]. Proponemos un general incluyen, pero no se limitan a la dimensión del marco de retroproyección de tiempo. Además, nuestro marco es la distribución de probabilidad para capturar el cambio de señal, en lugar de una única salida determinista (ver Figura 1).

3.       Métodos

Nuestro objetivo es utilizar los datos distribuidos capturar una escena específica de la p- ( el y- | los ejes X). En primer lugar, propusimos una condición basada VAE ( CVAE) el modelo de probabilidad [36] (Fig. 2).

 

 

3.1.  Variacional inferencia y la función de pérdida

El cálculo directo de esta integración es difícil, porque depende de la complejidad de los parámetros de la función potenciales posteriores y estimar el p- ( z | el y-) difícil. En su lugar, se utiliza la inferencia variacional probabilidad, utilizando descenso de gradiente estocástico para optimizarlo [20, 23].

  3.2.  Arquitecturas de red

Figura 3 muestra una tarea de tiempo de reinyección de 2D a 3D de la arquitectura. Nuestra arquitectura proyección bidimensional a tridimensional es casi el mismo, pero en diferentes dimensiones en el orden de las dimensiones X y operador de la conformación. Utilizamos convolución de baja dimensión y la configuración de operador para manejar el proyectado unidimensional a bidimensional. Y el número de parámetros debido a la complejidad del conjunto de datos de la capa de convolución varía.

La segunda etapa se aplica una serie de convolución bidimensional y las operaciones de muestreo en el sintetizada de datos de imagen x y más canales de tener las mismas dimensiones. La activación de la primera etapa de activación está conectada a la segunda etapa, se extendió a la función aprendida por saltarse las conexiones. Nos dará como resultado la imagen a lo largo de la dimensión plegada amplió para generar un volumen tridimensional. Con este fin, hemos generado convolución bidimensionales canales de datos del TF, donde T es el tamaño de una dimensión plegada (tiempo en esta realización), F. Algunas características. Por último, remodelar esta imagen como un cuerpo tridimensional, y aplicar un poco de convolución tridimensional para volver a definir y generar una estimación de la señal.

 

 

 

 

4.       experimentos y resultados

En primer lugar, el uso faceplace [31] evaluó nuestro enfoque a la cara de una sola dimensión al espacio de proyección bidimensional. A continuación,               el uso interno del conjunto de datos recogidos de visualización de vídeo de la marcha humana en dos dimensiones a la proyección tridimensional de los resultados. Por último, se utiliza el móvil MNIST [37] demuestra los datos de ajustar el tiempo de 2D a 3D de proyección. Estamos especializados en la proyección, en todos los experimentos, los píxeles se promedian a lo largo de una dimensión. Para todos los experimentos, separamos los datos en el entrenamiento / prueba de los grupos / validación que no se solapan.

4.1.  Implementación

Nosotros utilizamos un tensor flujo Keras [10] en [1] la aplicación de back-end de nuestro modelo. Usamos la tasa de aprendizaje de 1e-4 a ADAM optimizador [22]. Nuestro entrenamiento es diferente para cada modelo experimental. Se seleccionaron por separado para cada conjunto de datos de parámetro de regularización beta] terminado, por lo interpuesta en nuestros elementos de datos de verificación KL entre [5,15], para obtener suficiente reconstrucción de datos, evitando modo de fallo. Tenemos todos los experimentos dimensión z se establece en 10.

4.2.  Deprojections espaciales con faceplace

Faceplace consta de más de 5000 Zhang 236 personas composición de la imagen. Hay una gran cantidad de diversidad de fuentes, incluyendo diferentes razas, múltiples perspectivas, las expresiones faciales y los apoyos. Se seleccionaron al azar a partir de las 30 imágenes individuales para formar un conjunto de prueba. Nos escalar la imagen de 128 x 128 píxeles, y por paneo, zoom mejora de los datos, y los cambios de saturación. Compararemos nuestro enfoque con la siguiente línea de base:             

1. Selector de vecino más cercano ( k-NN): usando el error cuadrático medio de la concentración de ensayo de datos de entrenamiento de proyección más cercana seleccionado de la proyección k-ésima imagen.             

2. Y un proceso de retirada de nuestra red de radio gθ ( X, Z) en el mismo modelo determinista ( DET), no contiene una variable latente z.             

Un error cuadrado medio mínimo lineal ( el LMMSE) estimador, se supone que x y y son las x, extraída y distribución.

Para nuestro método y DET, utilizamos una medida de la percepción de pérdida. La Fig. 4 muestra los resultados de la visualización, algunos de los cuales son seleccionados al azar muestras de nuestro proceso. 1-NN rendimiento debido a probar la muestra varía, a veces generar caras de las personas equivocadas allí. LMMSE una salida muy difusa, lo que sugiere que la naturaleza altamente no lineal de la tarea. DET salida difusa produjo menos, pero todavía a menudo diferentes cara plausibles combinado. Nuestro método de determinación de la dirección de la cabeza de la incertidumbre y los cambios en la apariencia, como el color del pelo y la estructura facial.               Tolerancia dirección de la cabeza es más evidente en la proyección horizontal, porque el mayor impacto en la dimensión de cambio de actitud.

Y LMMSE y en comparación con el DET, la salida del método propuesto es más agudo, y la relación es más realista 1-NN. También vamos a modelar una evaluación cuantitativa. Utilizamos PSNR ( PSNR) entre la calidad medida de las imágenes reconstruidas. Para cada proyección de prueba, (de cada modelo siempre devuelve el mismo valor estimado DET) para extraer las estimaciones k proyección, y registrar el valor más alto estimado entre cualquiera de los verdaderos valores de la imagen de tierra y PSNR. Para cada retroproyección estimado y reproyección que graban la señal de pico promedio de ruido en relación con la prueba (inicial) proyecta la proyección de salida. La Fig. 5 muestra una proyección diferente de la muestra 100 de prueba resultados k. A medida que el número de muestras k aumenta, la señal de nuestro enfoque (a la proyección) aumento PSNR, poniendo de relieve las ventajas de nuestros métodos probabilísticos. mejor aproximación estimación k-NN con la mejor estimación del valor de k aumenta señal reconstruida, pero disminuyó k-NN señal de pico de proyección al ruido curvas de la relación también demuestran muchos mala estimación de k-NN.

LMMSE tiene una proyección perfecta PSNR ( PSNR), ya que es precisamente para captar la relación entre la señal y la proyección lineal de la construcción. Cuando una muestra, la señal DET tener un PSNR más alto, de confianza porque se promedia la imagen, y nuestro método hace. En nuestro método propuesto después de una muestra de más de DET.

4.3.  Deprojections espaciales con Ruta de vídeo

Se evaluó cualitativamente nuestro enfoque de la reconstrucción de proyección de vídeo de andar espacio vertical. Este escenario tiene una importancia práctica para la parte de la esquina de la cámara, como primero se describe en la sección 2.1. Recogimos un sujeto caminando 30 minuto en el área especificada 35 videos. El asunto de la indumentaria, de altura ( 5 pies 2 pulgadas -6 pies 5 pulgadas), la edad ( 18-60 años) y sexo ( 18 metros / 12 pies) entre sí. Los sujetos no se requiere de ningún modo particular de caminar, un montón de gente muy extraña forma de caminar. Todos los vídeos son los mismos antecedentes.

Vamos a reducir la velocidad de muestreo del vídeo a un segundo 5, cada trama 256 × 224 píxeles, y la traslación horizontal de cada mejora de datos de aplicación de vídeo. Dejamos que los seis sujetos produjeron una serie de pruebas. Predijimos secuencia (alrededor del 24 de tiempo real de 5 segundos).             

La figura 6 ilustra varios previamente proporcionada por la distribución z promedio = Ai [PHI] ( reconstruida muestra x) se obtiene. Nuestro enfoque sólo proyección vertical recuperar muchos detalles. Fondo es fácil de sintetizar, porque es coherente con el conjunto de datos de todos los vídeos. Vale la pena señalar que muchas de las miradas y los gestos de los sujetos se restauran los detalles.               Y los cambios sutiles en la señal de primer plano intensidad de los píxeles de proyección primer plano que comprende la forma de pista a lo largo de las pistas de dimensión de plegado. Por ejemplo, este método parece entender que, a medida que pasa el tiempo, más y más oscuros, huellas cada vez más amplios es probable que corresponden a un hombre se acercó a la cámara. El tercer tema es un resultado ilustrativo, nuestro enfoque de la camisa blanca y pantalones negros separada, aunque no son significativos en términos de proyección. Se espera al detalle, junto con la camisa es generalmente más ligero que el color de los pantalones modo de aprendizaje, es posible hacer posible esta recuperación.             

Por último, el método puede estar en conflicto con los datos de entrenamiento raramente ven patrones, tales como el quinto cuadro, paso largo cuarto objeto. Además de estos experimentos, hemos DGAIT conjunto de datos de entrenamiento [3] en un único modelo, el conjunto de datos se compone de más sujeto ( 53) la composición, pero con un patrón de marcha simple. Se obtuvieron resultados similares en la masa, como se muestra en la Fig.

4.4.  Deprojections temporales con MNIST Moving

Mobile conjunto de datos MNIST de 10.000 por la secuencia de vídeo móvil de dos compuesto por dígitos escritos a mano. Cada número puede ser bloqueada, y el rebote desde el borde del marco. Dado un 64 × 64 × 10 de tamaño de clip de vídeo de datos sub-conjuntos, nos referimos a generar cada vez mediante la proyección de las tramas x, similar a otros estudios generar grandes movimiento escala de la imagen borrosa [18, 21, 27, 28] .             

A pesar de la apariencia y el conjunto de datos dinámica es muy simple, pero el aspecto y la síntesis digital de captura de dirección razonable de cada pista es un reto. Nuestro enfoque para el ejemplo de prueba de tres de salida ejemplar de la FIG . 9. Para ilustrar nuestro método aprendido por los términos de tiempo, nuestro método que extrae de cada proyección para 10 secuencias, y dado el valor verdadero con respecto al clip de tierra hacia adelante y hacia atrás MMSE secuencia de ejecución.             

Nuestro enfoque de forma borrosa de la entrada de la imagen de carácter inferirse de un movimiento significativo, es decir, el uso de los estándares humanos difíciles de interpretar. Además, nuestro método de captura de un conjunto de datos cinética multimodal, mediante la presentación de dos secuencia de movimiento que ilustran esto: la primera secuencia coincide con una dirección de la tiempo real suelo, la segunda secuencia de tiempo que corresponde propulsión inversa.

Utilizamos curva PSNR nuestra precisión de cuantificación, similar a la primera experimento mostrado en la Figura 8. Debido a generar una matriz de covarianza completa Federación de coste computacional es demasiado alto, no se calcularon en este experimento LMMSE. DET para generar la falta de definición mediante la combinación de diferentes secuencias de la secuencia de tiempo plausible.             

Similar a la primera experimento, que hace que la salida DET sólo cuando k = 1 tiene la mejor señal esperada (emisión) el PSNR. PSNR señal k> 1, mucho mejor que nuestro método DET. proyección DET se desempeñan mejor aspecto PSNR, ya que en este experimento, el promedio de todos secuencia verosímil producen una proyección muy precisa. Y experimento faceplace comparación, k-NN En este experimento realizado relativamente mal, ya que es difícil encontrar el vecino más cercano en una dimensión de altura.

 

 

 

 

 

 

 

 

 

 

5.       Conclusión

En este trabajo, se introdujo un nuevo problema proyección visual: el de la imagen o vídeo en una dimensión doblada en una observación de bajas dimensiones. Proponemos un método general para procesar una primera imagen de vídeo y una proyección a lo largo de cualquier dimensión de los datos. Nuestra primera tarea es resolver la incertidumbre mediante la introducción de un modelo probabilístico que captura la distribución basada en la proyección de la señal original. Nos CNNs lograr la función del modelo paramétrico para aprender la estructura de cada dominio de la imagen compartida, la síntesis de señal precisa.             

Aunque la información obtenida de las dimensiones plegadas no están a menudo buscan recuperar desde el proyector a simple vista, pero nuestros resultados muestran que la mayoría de los "desaparecidos" la información es recuperable. Sólo se precisa de proyección espacio de movimiento para demostrar por detalles sutiles e imágenes de vídeo de rostros humanos en la reconstrucción de la misma. Por último, se ilustra el uso de la telefonía móvil conjunto de datos de vídeo MNIST puede ser reconstruido a partir de la imagen borrosa en el ejercicio vigoroso, aunque trayectoria modal múltiple. Este trabajo muestra que una nueva y ambiciosos resultados de la tarea de imágenes son prometedores, y abre posibilidades muy interesantes, revelan no visto en aplicaciones futuras.

 

Supongo que te gusta

Origin www.cnblogs.com/wujianming-110117/p/12630380.html
Recomendado
Clasificación