Universidad Nacional de Ciencia y Tecnología Procesamiento de Imágenes y Visión por Computador: Preguntas de Repaso Final y Resumen de Puntos de Conocimiento (2)

1. Describa brevemente el proceso de cálculo de Bag of Visual Word y diseñe un sistema de clasificación de imágenes basado en Bag of Visual Word;

(1) Extracción y descripción de características: use el operador SIFT para extraer los puntos de interés y las descripciones de características de la imagen, y genere varios puntos clave y sus descriptores para cada imagen en el conjunto de entrenamiento.

(2) Construcción de diccionario visual: agrupar todas las características SIFT extraídas (suponiendo K agrupamientos), y cada centro de agrupamiento es una palabra visual, obteniendo así un diccionario visual.

(3) Representación de la imagen: extraiga características SIFT de la imagen, cuantícelas en una representación vectorizada de palabras visuales, cuente el número de ocurrencias de cada palabra y represente cada imagen como un vector K-dimensional.

Para tareas de clasificación de imágenes: primero use la bolsa de palabras visuales para extraer características y luego seleccione un clasificador adecuado para la clasificación y el reconocimiento, por ejemplo, puede elegir el algoritmo KNN o SVM para la clasificación.

2. Describa brevemente las deficiencias del método de diferencia de fotogramas para detectar objetos en movimiento y discuta los posibles métodos de mejora, la idea principal y el método básico de modelado de fondo.

Desventajas del método de diferencia de cuadros: se ve muy afectado por el ruido. Para escenas dinámicas , debido al complejo movimiento relativo entre la escena y la cámara, el método tradicional de diferencia de fotogramas ya no es aplicable. Cómo estimar y compensar el movimiento global se ha convertido en la clave del problema.

Método mejorado del método de diferencia de fotogramas: el modelado de fondo es un método mejorado. Para detectar un objeto en movimiento en una escena en movimiento, la clave es estimar el movimiento de la escena, compensar el movimiento de la escena a través de los parámetros de movimiento estimados y, finalmente, obtener el objeto en movimiento mediante el método de diferencia de fotogramas.

La idea principal del modelado de fondo es utilizar la información redundante de las imágenes de secuencia en el tiempo y el espacio para separar el objetivo en movimiento de la escena del fondo. Al modelar primero el fondo y luego comparar el marco actual con el modelo de fondo, el primer plano se distingue del fondo, es decir, la sustracción del fondo.

Método básico de modelado de fondo: Se espera poder establecer un modelo de fondo que pueda adaptarse a los cambios ambientales. Los modelos de fondo estadísticos incluyen modelos gaussianos simples, modelos gaussianos mixtos, modelos no paramétricos, etc. El modelo gaussiano único supone que la distribución de cada característica de píxel en el dominio del tiempo se puede describir mediante una distribución gaussiana única. El modelo gaussiano mixto (cada componente corresponde a un peso, y los componentes gaussianos se clasifican en orden descendente según el peso dividido por la varianza, los primeros componentes b se utilizan como distribución de fondo y los componentes restantes se utilizan como primer plano distribución) puede describir el fondo con formas de distribución más complejas. El GMM clásico se basa en el modelado de píxeles e ignora la información de la estructura de la imagen. Se puede mejorar introduciendo MRF, estimación de densidad no paramétrica y selección adaptativa del número de gaussianos.

3. Algunos conceptos básicos de red neuronal convolucional, como campo receptivo, abandono, función de activación, agrupación, etc.;

Composición: capa de entrada, capa oculta {capa convolucional, capa de agrupación, capa totalmente conectada}, capa de salida

Características: conexiones locales, pesos compartidos

Campo receptivo: tamaño del kernel de convolución. Otra explicación: los puntos de píxel en el mapa de características (mapa de características) generado por cada capa de la red neuronal convolucional mapean el tamaño del área en la imagen de entrada, y el valor en este punto solo depende del valor en el área del campo receptivo .

Abandono: durante el proceso de entrenamiento (incluida la propagación hacia adelante y hacia atrás), las neuronas se desactivan aleatoriamente con una cierta probabilidad, lo que puede prevenir eficazmente el sobreajuste.

Función de activación: Introducir factores no lineales, actuar sobre la salida de los nodos a través de funciones no lineales, generar información de activación y pasarla a la siguiente capa de red.

Agrupación: es un método de muestreo descendente que agrega y cuenta características en diferentes posiciones en el mismo bloque para reducir el tamaño del mapa de características.

4. Explique qué es el ajuste excesivo (over-fitting) y analice las soluciones para evitar el ajuste excesivo;

Sobreajuste: El fenómeno de que el modelo tiene un pequeño error en el conjunto de entrenamiento pero un gran error en el conjunto de prueba. Suele ocurrir cuando el modelo es demasiado complejo, como demasiados parámetros.

Soluciones: Regularización (L1, L2), aumento de muestras de datos, terminación anticipada, Dropout

5. Describa brevemente el papel de la información de movimiento en el estándar de codificación de video MPEG-1 y comprenda el papel del cuadro I, el cuadro B y el cuadro P;

Utilice la información de movimiento, adopte el algoritmo de compensación de movimiento, elimine los datos redundantes en el tiempo y, por lo tanto, realice la compresión.

  • I: Intraframe: Un I frame contiene una imagen con contenido completo, que se utiliza como referencia para el códec de otras imágenes de fotogramas, por lo que a menudo lo llamamos fotograma clave.
  • P: cuadro predictivo unidireccional: un cuadro P se refiere a una imagen que usa el cuadro I que apareció antes como imagen de referencia, y codificar el cuadro P en realidad codifica la diferencia entre ellos.
  • B: Cuadro predictivo bidireccional: Un cuadro B es una imagen que utiliza las imágenes anteriores y posteriores, es decir, el cuadro I y el cuadro P, como imágenes de referencia. Codificar el cuadro B es codificar la diferencia entre este y el cuadro I y el cuadro P respectivamente.

6. Los conceptos básicos y los principales métodos de seguimiento de objetivos, explique la relación y la diferencia entre el seguimiento de objetivos y la detección de objetivos;

El concepto de seguimiento de objetivos: a través del procesamiento y análisis de datos de video, el mismo objetivo en movimiento en diferentes cuadros en la secuencia de imágenes se asocia para calcular los parámetros de movimiento del objetivo.

El concepto de seguimiento de un solo objetivo: en el primer cuadro, dado el objetivo a rastrear, en la secuencia de video posterior, determine la posición del objetivo en cada cuadro.

La relación entre la detección de objetivos y el seguimiento:

  • Primero detecte y luego realice un seguimiento, generalmente utilizado para el seguimiento de objetivos múltiples, primero detecte el objetivo en movimiento en cada cuadro y luego haga coincidir los objetivos en los cuadros anteriores y posteriores para lograr la asociación de trayectoria.
  • Seguimiento durante la detección: combinación de detección y seguimiento de objetivos, uso de los resultados del seguimiento para determinar el rango del área que se procesará durante la detección y uso de la detección para obtener la observación del estado del objetivo durante el seguimiento. En primer lugar, se establece un modelo de características que describe el objetivo y, después de la inicialización del cuadro inicial, la búsqueda de coincidencias se lleva a cabo continuamente en cuadros posteriores.

Los principales métodos de seguimiento de objetos:

Dividido en dos categorías:

  • Modelo generativo: seleccione el parche de imagen más similar al modelo de apariencia objetivo de las muestras candidatas como resultado del seguimiento
  • Modelo discriminativo: modele el problema de seguimiento como un problema de clasificación binaria, es decir, para juzgar si cada muestra candidata es una muestra de fondo o una muestra objetivo

Existen los siguientes métodos:

  • Coincidencia basada en características: extraiga la característica del objetivo y encuentre esa característica en cada cuadro. El proceso de búsqueda es el proceso de coincidencia de características.
  • Seguimiento del filtro bayesiano: lidiar con la incertidumbre en el seguimiento de objetivos múltiples Bajo el marco de la teoría bayesiana, el problema de seguimiento de objetivos múltiples se convierte en un proceso de inferir la probabilidad posterior máxima del estado objetivo . El principio básico del filtrado bayesiano es inferir la distribución de densidad de probabilidad posterior de las variables de estado del sistema sobre la base de toda la información conocida .
  • Seguimiento del filtro de Kalman: en esencia, el filtro de Kalman es un algoritmo recursivo para predecir el estado de un sistema dinámico lineal ruidoso , y es un proceso de predicción y corrección continuas. Cuando se supone que el modelo de estado del sistema y el modelo de observación son lineales y se ajustan a la distribución gaussiana , y el ruido también se ajusta a la distribución gaussiana, el filtro de Kalman lineal es el filtro óptimo. El algoritmo de filtro de Kalman es la teoría recursiva de estimación óptima, que utiliza el método de descripción del espacio de estado y utiliza el error cuadrático medio mínimo lineal como criterio de estimación para estimar de manera óptima las variables de estado.
  • Mean Shift Mean Shift: Descubra funciones de densidad de probabilidad ocultas en un conjunto de datos. Dado un punto inicial x y una función kernel g(x), realice los siguientes pasos hasta que se cumpla la condición final:
    • Calcule el vector medio compensado m(x)
    • asignar m(x) a x
    • Si ||m(x)-x||< entonces termina el ciclo
  • Desplazamiento medio aplicado al seguimiento de objetos:
    • Inicialice la ventana de búsqueda, utilizando el histograma de color como descripción del modelo de destino.
    • Calcula la distribución de probabilidad de color para la ventana de búsqueda.
    • Ejecute el algoritmo de desplazamiento medio para obtener el tamaño y la posición de la nueva ventana de búsqueda.
    • Vuelva a buscar el tamaño y la posición de la ventana en el siguiente cuadro de la imagen de video, realice una coincidencia de similitud y luego salte al segundo paso para continuar hasta ||m(x)-x||<.

7. Los conceptos básicos y el conocimiento de la detección de objetos (tome R-CNN como ejemplo), el proceso básico de R-CNN, cómo entrenar, propuesta de región, IOU, NMS, clasificación y región .

RCNN: detección de objetos basada en regiones candidatas

YOLO: Detección de objetos basada en regresión

Proceso básico de R-CNN:

  • Propuesta de región: extraiga varios cuadros de candidatos de región de la imagen original mediante búsqueda selectiva (usando segmentación de imágenes y algoritmos jerárquicos)
  • Normalización de área: escale todos los cuadros candidatos a un tamaño fijo
  • Extracción de características: la red CNN genera un vector de características de longitud fija para cada región candidata
  • Clasificación de regiones: SVM combinadas con NMS (supresión de valores no máximos, seleccione la región con la probabilidad más alta y suprima otras regiones con IoU mayor que el umbral) para obtener los bordes de las regiones y, finalmente, realizar el refinamiento de la posición a través de la regresión lineal .

Procedimiento de formación R-CNN:

  • Entrenamiento previo (aprendizaje de migración): entrenamiento previo de CNN en el conjunto de datos de ImageNet
  • Entrenamiento de ajuste: ajuste fino en el conjunto de datos PASCAL
  • Entrene al clasificador SVM: si el IoU entre cada región propuesta y el cuadro estándar es mayor que el umbral, es una muestra positiva, de lo contrario, es una muestra negativa. Las muestras positivas incluyen muestras etiquetadas y regiones propuestas con IoU mayor que un umbral. Dado que las muestras positivas son mucho menos que las muestras negativas, se seleccionan algunas muestras negativas representativas de las muestras negativas.

8. Espere el desarrollo de la visión por computadora en 2030. Dé un ejemplo de la aplicación de la visión por computadora desde una perspectiva razonable: se realizará en 2030, pero el nivel técnico actual aún no ha alcanzado o es inmaduro. Y trate de explicar el método técnico en este ejemplo.

Hoy en día, las computadoras pueden superar a los humanos en la resolución de tareas específicas utilizando miles de millones de imágenes. No obstante, en el mundo real, es raro construir o encontrar conjuntos de datos que contengan una cantidad tan grande de muestras. Los datos etiquetados de alta calidad son difíciles de obtener en la mayoría de los campos, lo que limita las capacidades de aplicación de muchos algoritmos de visión artificial en los escenarios correspondientes.

En este contexto, la propuesta de Few Shot Learning (FSL) resolverá el problema de la aplicación de aprendizaje automático en condiciones de tamaño de conjunto de datos severamente limitado. El método de aprendizaje de muestras pequeñas puede usar solo una cantidad muy pequeña de muestras supervisadas bajo la premisa de usar conocimientos previos , de modo que el modelo pueda mejorar rápidamente el rendimiento de generalización a través de muy pocos pasos de actualización, para poder aplicarlo a nuevas tareas relacionadas. En los últimos años, el aprendizaje de pocos disparos se ha aplicado a muchas aplicaciones en los campos de la visión por computadora, el procesamiento del lenguaje natural, la interacción humano-computadora, el gráfico de conocimiento e incluso la computación biológica.

El campo de la detección de objetos con pocos disparos se está desarrollando rápidamente, pero no hay muchas soluciones efectivas. La solución más estable a este problema es el algoritmo de metaaprendizaje independiente del modelo YOLO+ .

Y otras dificultades: clasificación muy detallada, detección y segmentación de objetivos muy pequeños y borrosos, y cómo garantizar la estabilidad de los resultados de segmentación bajo cambios de iluminación complejos . Además, la migración de imagen a video también enfrenta un problema de suavidad, y los defectos sutiles en la imagen se magnifican fácilmente en el video. El desarrollo de la visión por computadora se enfrenta a un cuello de botella, y el aprendizaje profundo juega un papel limitado en él, por lo que es necesario encontrar nuevos avances. El progreso del aprendizaje profundo ha mejorado en gran medida la precisión del reconocimiento de CV, pero el aprendizaje profundo depende demasiado de una gran cantidad de datos etiquetados, lo que hace que los investigadores de visión artificial dediquen mucho tiempo a tareas de etiquetado simples pero complicadas, mientras ignoran tareas más importantes. .

9. Conceptos básicos y diferencias entre clasificación y agrupamiento;

Clasificación: aprendizaje supervisado, para una muestra dada, aprende una función de decisión de clasificación de los datos, la variable de salida toma un número finito de valores discretos, que representan la categoría.

Agrupamiento: aprendizaje no supervisado, para muestras dadas, de acuerdo con su distribución de datos, las muestras similares se asignan al mismo grupo y las muestras diferentes se asignan a diferentes grupos. El propósito de la agrupación es descubrir las características de distribución de los datos, especificar el número de grupos por adelantado, pero no conocer la importancia de los grupos.

10. Presente el rol y la función del clasificador y el módulo de extracción de características en el sistema de clasificación;

Extracción de características: CNN, bolsa de palabras visuales convertida a representación vectorizada de palabras visuales. Una característica es una representación de una imagen.

Clasificadores: Naive Bayes, AdaBoost, SVM, KNN, Softmod, etc.

11. El proceso de cálculo de la función de histograma de color.

El histograma de color es una característica de color ampliamente utilizada en muchos sistemas de recuperación de imágenes. Lo que describe es la proporción de diferentes colores en toda la imagen, reflejando las características estadísticas de la distribución de color de la imagen, y no le importa la posición espacial de cada color, es decir, no puede describir el objeto u objeto en el imagen. Los histogramas de color son especialmente adecuados para describir imágenes que son difíciles de segmentar automáticamente.

Para calcular el histograma de color, el espacio de color debe dividirse en varios intervalos de color pequeños, y cada intervalo pequeño se convierte en un contenedor del histograma. Este proceso se llama cuantificación de color. Luego, el histograma de color se puede obtener contando el número de píxeles cuyo color se encuentra dentro de cada contenedor.

12. Tome el modelo de red neuronal convolucional y el histograma de color como ejemplos para explicar la diferencia entre la representación de características del aprendizaje automático y el método de representación de características del diseño manual;

Características diseñadas manualmente: SIFT y HOG son métodos de extracción de características basados ​​en el histograma de direcciones de gradiente en la imagen. En áreas con volúmenes de datos relativamente pequeños, la velocidad y la precisión de los algoritmos de aprendizaje automático tradicionales son más ventajosas porque los algoritmos de aprendizaje automático tradicionales tienen estrictas razonamiento ., El proceso de cálculo es controlable .

Funciones de aprendizaje automático: CNN, en términos de procesamiento de big data, la red neuronal profunda tiene mayor precisión y campos de aplicación más amplios.

13. Dadas dos imágenes, proporcione un método de cálculo para la similitud de la imagen y discuta su racionalidad y deficiencias.

  • Los histogramas pueden describir la distribución global de colores en una imagen, construir histogramas, vectorizar representaciones y similitud de coseno. El histograma es demasiado simple y solo puede capturar la similitud de la información de color, pero no puede capturar más información. Siempre que la distribución del color sea similar, se juzgará que la similitud entre los dos es alta, lo que obviamente no es razonable.
  • Extraiga características, represente la imagen como un vector y caracterice la similitud de dos imágenes calculando la distancia del coseno entre los vectores. Cuanto más cerca esté el valor del coseno de 1, más cerca estará el ángulo incluido de 0 grados, es decir, más similares serán los dos vectores. La similitud del coseno no es sensible al valor absoluto del valor específico, por lo que no puede medir la diferencia de valor.
  • Red gemela: dos redes aceptan entradas por separado, comparten pesos y luego calculan la distancia o similitud entre los dos vectores de salida para determinar la similitud de la entrada original.

14. Presente a una imagen (como la imagen de abajo), los diversos tipos de información conceptual que puede contener. ¿Hasta dónde puede llegar la tecnología de comprensión de imágenes ahora?

Detección de vehículos, estimación de densidad de multitudes, estimación de densidad de vehículos, clasificación de escenas, segmentación semántica, mejora con poca luz, segmentación semántica, detección de objetivos, seguimiento de objetivos...

 

Supongo que te gusta

Origin blog.csdn.net/qq_41112170/article/details/125822539
Recomendado
Clasificación