Ejercicios diarios de visión artificial.

Lección 2 Descripción general del procesamiento de imágenes

Descripción general del procesamiento de imágenes

  1. Transformación geométrica: también conocida como transformación del espacio de imágenes, asigna la posición de coordenadas en una imagen a una nueva posición de coordenadas en otra imagen.
  2. Segmentación de imágenes: la tecnología y el proceso de dividir imágenes en regiones distintivas y extraer objetos de interés.
  3. Bordes de la imagen:Insertar descripción de la imagen aquí

llena el espacio en blanco

  1. Suaviza, realza, restaura .
  2. Generalmente incluye: mejora de imagen, restauración de imagen , codificación de imagen, segmentación de imagen, reconstrucción de imagen , etc.
  3. Generalmente incluye dos partes:
    operación espacial , que realiza el mapeo de posición de la imagen de entrada y la imagen de salida, e
    interpolación en escala de grises , que se utiliza para calcular el valor de escala de grises del píxel en la nueva posición.
  4. Operaciones de puntos y operaciones de plantilla.
  5. Filtros de suavizado y nitidez.
  6. Mantenga los componentes de baja frecuencia y elimine los componentes de alta frecuencia .
  7. liso
  8. afilar
  9. Similitud numérica : como diferencia en escala de grises, distribución regional en escala de grises.
    Proximidad espacial : como distancia euclidiana, densidad regional.
  10. Uno es un método basado en regiones ;
    el otro es un método de estimación de contornos que utiliza la detección de bordes.

Llena el espacio en blanco 2

  1. Generalmente, las derivadas de primer o segundo orden se utilizan habitualmente para detectar bordes.
  2. En forma de escalón
    En forma de pulso
    En forma de techo
  3. Operador de detección de bordes diferencial de primer orden
  4. Segmentación de umbral único
    Segmentación de umbral múltiple
  5. Los bordes son el resultado de discontinuidades en la escala de grises y son los cambios más significativos en la intensidad local de la imagen . Estas discontinuidades a menudo pueden detectarse fácilmente utilizando derivados
  6. Método de segmentación de umbral gris
  7. Crecimiento regional
    fusionándose y dividiéndose
  8. Ruido aditivo y ruido multiplicativo.

Respuesta corta

  1. El objetivo principal del preprocesamiento de imágenes es eliminar información irrelevante en la imagen, restaurar información real útil, mejorar la detectabilidad de información relevante y simplificar los datos al máximo, mejorando así la confiabilidad de la extracción de características, la segmentación de imágenes, la coincidencia y el reconocimiento.

  2. Generalmente incluye: digitalización, transformación geométrica, normalización, suavizado, mejora, restauración, etc.

  3. El propósito es realizar algunas operaciones relacionadas en la imagen para simplificar el trabajo posterior de análisis de imágenes (descripción de imágenes, reconocimiento de imágenes).

  4. Generalmente incluye: mejora de imágenes, restauración de imágenes, codificación de imágenes, segmentación de imágenes, reconstrucción de imágenes, etc.

  5. Conveniente para guardar imágenes en la computadora
    Conveniente para calcular y procesar imágenes

  6. Filtro de suavizado lineal + filtro de suavizado no linealfiltro espacial

  7. Convierta la imagen del espacio de la imagen al espacio en el dominio de la frecuencia (transformada de Fourier)
    para mejorar la imagen en el espacio del dominio de la frecuencia;
    convierta la imagen mejorada del espacio en el dominio de la frecuencia al espacio de la imagen (transformada de Fourier inversa).

  8. Filtro de paso bajo, filtro de paso alto, filtro de paso de banda, filtro de parada de banda

  9. Ruido: ruido interno, ruido externo; ruido gaussiano, ruido de sal y pimienta
    Movimiento: problema de imagen borrosa.

  10. Similitud numérica: como diferencia de escala de grises, distribución regional de escala de grises
    Proximidad espacial: como distancia euclidiana, densidad regional

respuesta corta 2

  1. Los bordes son el resultado de discontinuidades en la escala de grises y son los cambios más significativos en la intensidad local de la imagen. Este tipo de discontinuidad a menudo se puede detectar fácilmente mediante derivadas. Generalmente, las derivadas de primer o segundo orden se utilizan comúnmente para detectar bordes.
  2. El umbral se selecciona de la distribución en escala de grises del histograma. Para la imagen en escala de grises, la distribución en escala de grises se muestra utilizando la información estadística en escala de grises de la imagen. El umbral de segmentación se selecciona en diferentes valles y generalmente se utiliza el método de umbralización de histograma unidimensional. Simplemente seleccione un umbral apropiado del histograma para la segmentación de imágenes.
  3. La segmentación de imágenes es la tecnología y el proceso de dividir imágenes en áreas distintivas y extraer objetos de interés.
  4. Tecnología de segmentación basada en límites: operador diferencial de primer orden, operador diferencial de segundo orden
    Tecnología de segmentación basada en regiones: tecnología de región paralela, tecnología de región en serie

elección única

  1. B. El filtrado medio tiene un excelente efecto de filtrado sobre el ruido de sal y pimienta.
  2. B
  3. Un
    filtro suavizante: puede debilitar o eliminar los componentes de alta frecuencia en la imagen, pero no afecta los componentes de baja frecuencia. Se utiliza principalmente para eliminar el ruido. Principio de filtrado de paso bajo: retiene los componentes de baja frecuencia
    y
    elimina los componentes de alta frecuencia.
    Resultado: el ruido se elimina o se elimina, pero los contornos de los bordes también se difuminan.
  4. B Principio
    de filtrado de paso alto
    : retiene los componentes de alta frecuencia y elimina los componentes de baja frecuencia.
    Resultado: se elimina la mayor parte de la información de la imagen, dejando solo los contornos de los bordes.
    Filtro de nitidez: Puede debilitar o eliminar los componentes de baja frecuencia de la imagen, pero no afecta los componentes de alta frecuencia, se utiliza principalmente para realzar los detalles borrosos o los bordes del objetivo.
  5. A
    wu
  6. El umbral B es el algoritmo de segmentación de regiones paralelas más común

Artículo único 2

  1. A
  2. B (incierto)
  3. El filtrado B
    es una operación de plantilla típica
    que utiliza la relación en escala de grises entre el píxel mismo y sus píxeles vecinos para mejorarlo.
  4. El
    espectro de la imagen A proporciona las propiedades globales de la imagen, por lo que la mejora en el dominio de la frecuencia no se realiza píxel a píxel.

Problemas de cálculo

  1. (Para ser escrito, lo escribí mal antes, lo siento mucho)

Sin prueba

Calcular 2

  1. Usando convolución, no diré mucho sobre esto (los siguientes resultados no están verificados, el objetivo principal es aprender el método de cálculo)

Esta matriz es especial. Es muy simétrica. También podemos sumar las posiciones correspondientes y finalmente multiplicar por 1/4. Las
aristas no se consideran en la pregunta, por lo que obtendremos una matriz de aristas de 3*3. Finalmente, solo agregue los bordes y el
resultado será bueno. :
resultado
Hay dos métodos para los bordes: el primero es llenar los bordes con 0 y el segundo es el mapeo de bordes, que asigna bordes
a bordes.

escritura:

Subasta de suelos

Capítulo cuatro

Glosario

  1. Las características de los objetos de imagen son abstracciones de las características de los objetos de imagen y son descripciones conceptuales utilizadas para distinguir diferentes tipos de objetos.
  2. La textura son los patrones locales recurrentes en una imagen y su disposición.
  3. La selección de características se refiere a seleccionar el subconjunto de características más efectivo de un conjunto de características originales para lograr el propósito de reducir la dimensionalidad del espacio de características, simplificar el diseño del clasificador y mejorar la velocidad de clasificación.

llena el espacio en blanco


  1. Aprendizaje de funciones hecho a mano (método tradicional) (aprendizaje de funciones, método de aprendizaje profundo)
  2. Características visuales , características estadísticas , características algebraicas, características de coeficientes de transformación, otras características físicas.
  3. Las características visuales se refieren a las características sensoriales de la visión humana sobre los objetos, que incluyen principalmente: color, borde, contorno, textura, forma, etc.
  4. La percepción del color no solo está relacionada con las características de color originales del objeto , sino que también se ve afectada por el tiempo, el espacio, el estado de apariencia y el entorno circundante del objeto, así como por los factores subjetivos humanos.
  5. Los colores en la naturaleza se dividen en dos categorías: cromáticos y acromáticos.
  6. RGB es un modelo aditivo utilizado principalmente en dispositivos de visualización.
  7. CMY es un modelo sustractivo utilizado principalmente en la industria de la impresión. Es decir: qué luz puede reflejar y absorber la tinta mezclada.
  8. La textura refleja una tendencia de cambios en el brillo de los píxeles en una imagen.

Respuesta corta

  1. Características visuales, características estadísticas, características algebraicas, características de coeficientes de transformación, otras características físicas.

  2. Las características visuales se refieren a las características sensoriales de la visión humana sobre los objetos, que incluyen principalmente: color, borde, contorno, textura, forma, etc.

  3. El color es una característica visual distinta de las imágenes provocada por la acción de la luz sobre el ojo humano, es un reflejo psicológico de las personas. La percepción del color no sólo está relacionada con las características de color originales del objeto, sino que también se ve afectada por el tiempo, el espacio, el estado de apariencia y el entorno circundante del objeto, así como por factores subjetivos humanos.

  4. Modelo de color RGB, modelo de color CMY, modelo de color HSV/HSI, modelo de color YUV/YCbCr, modelo de color CIE-Lab/L a b * RGB
    es un modelo aditivo utilizado principalmente en dispositivos de visualización.
    CMY es un modelo sustractivo utilizado principalmente en la industria de la impresión. Es decir: ¿qué luz puede reflejar y absorber la tinta mezclada?

  5. Factor de forma, relación de apariencia, relación de expansión, plenitud, excentricidad, esfericidad, número de Euler

  6. 1. Escala de textura: el mismo objeto tiene diferentes características de textura en diferentes escalas
    2. Rugosidad de la textura: Diferentes sustancias pueden tener diferente rugosidad de textura
    3. Regularidad de la textura: regular o irregular
    4. Regionalidad de la textura: Diferentes regiones pueden tener diferentes texturas

  7. Dividido principalmente en dos categorías
    : características de textura basadas en histogramas en escala de grises, que incluyen: brillo promedio, contraste promedio, suavidad, momento de tercer orden, consistencia, entropía, etc.
    Características de textura basadas en una matriz de coocurrencia de niveles de grises, que incluyen: energía, contraste, uniformidad, correlación, entropía, etc.

  8. Se pueden establecer dos condiciones de terminación:
    1) Se ha alcanzado el número máximo especificado de generaciones de evolución MaxGen, o
    2) el subconjunto de características óptimo no ha cambiado en generaciones consecutivas.
    MaxGen y Gen son constantes empíricas.

elección única

  1. A
  2. B
  3. C
  4. B
  5. B
  6. Una matriz de coocurrencia de niveles de grises es un método común para describir la textura mediante el estudio de las características de correlación espacial de los niveles de grises.
  7. La selección de características D se refiere a seleccionar el subconjunto de características más efectivo de un conjunto de características originales para lograr el propósito de reducir la dimensionalidad del espacio de características, simplificar el diseño del clasificador y mejorar la velocidad de clasificación.
  8. El algoritmo genético B es adecuado para buscar espacios de características grandes y no requiere que la función de evaluación sea monótona, por lo que se ha utilizado con éxito en muchos campos, como la selección de características, la optimización de parámetros y el control del sistema.

Problemas de cálculo

Problemas de cálculo:

  1. Esta es una imagen en escala de grises de 8 niveles, por lo que primero dibujamos una imagen de 8 8, aquí uso xlsx para representarla,
    expresar
    luego agregamos una a las coordenadas (número anterior, número siguiente) en esta matriz de 8 8.
    Como (0, 7), (7, 5), (3, 1), etc.
    aquí
    Final:
    imagen
    Complete otras posiciones con 0

Preguntas integrales:

Capítulo 5 Características invariantes (por escribir...)

Explicación del sustantivo + completar los espacios en blanco
Glosario

  1. La característica invariante global trata la imagen completa como un todo y trata cada dato de píxel en toda la imagen indiscriminadamente, independientemente de si los datos representan el objetivo o el fondo.
  2. Las características locales de la imagen son estructuras locales compuestas por algunos píxeles con grandes cambios de brillo, que contienen información rica de la imagen y son altamente representativas.

llena el espacio en blanco

  1. Según los grados de libertad de la invariancia geométrica, se puede dividir en
    características invariantes de traducción, características invariantes de rotación, características invariantes afines, características invariantes de escala y características invariantes de proyección ;
  2. Según los diferentes niveles de características, se pueden dividir en: características invariantes de puntos y características invariantes de región;
  3. Según el tamaño del área durante la extracción de características, se puede dividir en: características invariantes globales, características invariantes locales y características invariantes globales y locales.
  4. La característica invariante global trata toda la imagen como un todo y trata cada dato de píxel en toda la imagen indiscriminadamente , independientemente de si los datos representan el objetivo o el fondo.
  5. momento de origen
  6. en

Respuesta corta
3. Preguntas de respuesta corta

  1. Durante el proceso de adquisición de imágenes, siempre hay factores como escala, rotación, traslación, interferencia de ruido, cambios en el punto de vista de observación y cambios de iluminación, que afectan la robustez del sistema. Por lo tanto, al realizar el reconocimiento o seguimiento de objetivos, las características que son invariantes a los cambios anteriores se deben extraer de la imagen y luego se realiza la comparación de características.
  2. Durante el proceso de adquisición de imágenes, siempre hay factores como escala, rotación, traslación, interferencia de ruido, cambios en el punto de vista de observación y cambios de iluminación, que afectan la robustez del sistema.
  3. Según los grados de libertad de la invariancia geométrica, se puede dividir en características invariantes de traducción, características invariantes de rotación, características invariantes afines, características invariantes de escala y características invariantes de proyección;
  4. como sigue
    tú

elección única
4. Elección única

  1. D
  2. A
  3. B

Problemas de cálculo

  1. Fórmula de coordenadas del centro de masa:
    m ( pq ) = ∑ x = 1 C ∑ y = 1 R xpyqf ( x , y ) p , q = 0 , 1 , 2... x 0 = m 10 m 00 y 0 = m 01 m 00 m_(pq)=\sum^C_{x=1}\sum^R_{y=1}x^py^qf(x,y)\\ p,q=0,1,2... \\ x_0=\frac{m_{10}}{m_{00}}y_0=\frac{m_{01}}{m_{00}}metro(pq )=x = 1Cy = 1rXp yq f(x,y )pag ,q=0 ,1 ,2...X0=metro00metro10y0=metro00metro01

llena el espacio en blanco
1. Completa los espacios en blanco

  1. La clasificación de objetos estudia principalmente la cuestión de qué
  2. La detección de objetos estudia principalmente el problema de dónde
  3. como sigue:
    0
  4. pequeño grande
  5. Basado en la detección de puntos de interés y el método de extracción densa.
  6. Generalmente, esto se puede lograr mediante la agrupación o el uso de agregación de características espaciales.

Respuesta corta
2. Respuesta corta

  1. como sigue

Reconocimiento facial, detección de peatones, análisis de vídeo inteligente, seguimiento de peatones, etc. en el campo de la seguridad.
Reconocimiento de objetos en la escena del tráfico (evitación de obstáculos de automóviles, etc.), conteo de vehículos, detección retrógrada, detección y reconocimiento de matrículas en el campo del transporte. Contenido -Recuperación de imágenes basada
en el campo de Internet, Categorización automática de álbumes de fotos.

  1. como sigue
  1. El nivel de instancia
    se refiere a una instancia de objeto único. Generalmente debido a diferencias en las condiciones de iluminación, ángulos de disparo, distancias, deformaciones del cuerpo no rígido del objeto en sí y oclusión parcial de otros objetos durante el proceso de recolección de imágenes, las características aparentes de la instancia de objeto tienen grandes diferencias Los cambios han traído grandes dificultades a los algoritmos de reconocimiento visual.
  2. Jerarquía de categorías
    En primer lugar, existe una gran diferencia dentro de una categoría, es decir, las características aparentes de los objetos que pertenecen a la misma categoría son bastante diferentes. El énfasis está en las diferencias entre diferentes instancias dentro de la categoría. Por ejemplo, la apariencia de la misma categoría. La silla es muy diferente. En segundo lugar, existe ambigüedad entre categorías, es decir, diferencias entre categorías
    . Las instancias de objetos de una clase tienen ciertas similitudes, como los lobos y los perros esquimales. Es difícil separar los dos en apariencia. Una vez más, la
    interferencia del fondo es la razón. En escenas reales los objetos no pueden aparecer sobre un fondo muy limpio. Muchas veces, por el contrario, el fondo puede ser muy complejo e interferir con los objetos que nos interesan, lo que aumenta enormemente la dificultad de la problema de identificación.
  3. Nivel semántico
    Las dificultades y desafíos están relacionados con la semántica visual de las imágenes, un problema típico llamado multiestabilidad.
  1. como sigue

De lo simple a lo complejo, de lo especial a lo general, de lo pequeño a lo grande
. Al principio, la atención se centró en la clasificación de imágenes en problemas específicos.
Luego, la atención se centró en la clasificación y detección de objetivos generales.
Ahora, la atención se centra en la clasificación a mayor escala. y detección.

  1. como sigue
    bolsa de palabras
  2. como sigue

Red de creencias profundas DBN
DBN es un modelo de gráfico jerárquico no dirigido.
La unidad básica de DBN es RBM (máquina de Boltzmann restringida).
Primero, la entrada original se usa como capa visible, se entrena un RBM de una sola capa y luego se fija el peso del RBM de la primera capa y se oculta la respuesta del RBM. La unidad de capa se utiliza como nueva capa visible para entrenar el RBM de la siguiente capa, y así sucesivamente.
A través de este codicioso entrenamiento no supervisado, todo el modelo DBN puede obtener un mejor valor inicial, y luego se puede agregar información de etiquetas para realizar un ajuste fino supervisado de toda la red a través de métodos de producción o discriminantes para mejorar aún más el rendimiento de la red.
La estructura multicapa de DBN le permite aprender expresiones de características jerárquicas y realizar la extracción automática de características.

  1. como sigue

La
tarea de posicionamiento del objetivo es determinar si hay un objeto de una categoría específica en la imagen de entrada; si existe, proporcione la posición y el rango del objeto, generalmente usando un cuadro delimitador cuadrado.
La
tarea de clasificación de objetivos es determinar si los objetos de la categoría de interés aparecen en el área de la imagen seleccionada (Propuestas), y la etiqueta de salida con una puntuación indica la posibilidad de que el objeto de la categoría de interés aparezca en el área seleccionada.

  1. como sigue

Componentes principales de los algoritmos de detección tradicionales.

  1. Selección de ventana de detección
    Método de ventana deslizante (búsqueda violenta)
    Método de extracción de área de búsqueda selectiva
  2. Diseño de funciones
    Haar, HOG, LBP
  3. Diseño de clasificador
    AdaBoost (SVM), SVM, árbol de decisión
  1. como sigue

La composición general del algoritmo de detección de objetivos basado en el aprendizaje profundo.

  1. La parte de aprendizaje de características
    implementa principalmente el aprendizaje de características a través del apilamiento de varias capas de convolución, agrupación y activación, y
    también se incorporarán módulos de atención para mejorar el efecto de aprendizaje.
  2. Parte de clasificación:
    la clasificación de objetivos se puede lograr a través del clasificador SoftMax

  3. Supresión no máxima de parte de posprocesamiento (opcional)

Objeto unico
3. Elección única

  1. A
  2. D

Problemas de cálculo
4. Cálculo

  1. Es la operación de convolución, esta no considera los bordes y se calcula directamente, finalmente se suman los valores de los bordes de la imagen original
    Preguntas integrales
    5. Preguntas integrales

levemente

Supongo que te gusta

Origin blog.csdn.net/weixin_51395608/article/details/131043204
Recomendado
Clasificación