Redes neuronales: fundamentos del procesamiento de imágenes

【1】 Conceptos relacionados con la binarización de imágenes

La binarización de imágenes es el proceso de establecer el valor de escala de grises de los píxeles de la imagen en 0 o 255, que es el proceso de hacer que toda la imagen parezca obviamente en blanco y negro. Cada píxel de una imagen binaria tiene sólo dos valores: negro puro o blanco puro.

A través de imágenes binarias, se separa el objetivo de interés y el fondo, y se puede analizar mejor la forma y el contorno del objeto .

Existen muchos métodos para la binarización de imágenes, el más clásico de los cuales es el uso de umbrales (Thresholding) para la binarización. El método de umbral se refiere a seleccionar un número, configurarlo como blanco si es mayor que él y configurarlo como negro si es menor que él. Según los diferentes métodos de selección de umbral, se puede dividir en umbral global y umbral local. El umbral global (método global) se refiere al uso del mismo umbral para cada píxel de toda la imagen. El método local también se denomina umbral adaptativo. El método del umbral local supone que la iluminación recibida por la imagen en un área determinada es relativamente cercana. Escanea la imagen con una ventana deslizante y compara el brillo del punto central de la ventana deslizante con el brillo de otras áreas dentro de la ventana deslizante (llamada área vecina). Si el brillo del punto central es mayor que el de sus vecinos, establezca el punto central en blanco; en caso contrario, configúrelo en negro.

Insertar descripción de la imagen aquí

[2] Conceptos relacionados con la corrosión por expansión de imágenes.

La dilatación y erosión de la imagen son dos operaciones morfológicas básicas, que se utilizan principalmente para encontrar áreas máximas y mínimas en la imagen .

La dilatación es similar a la "expansión de campo", que expande el área resaltada o la parte blanca de la imagen, y la imagen resultante es más grande que el área resaltada de la imagen original.

La corrosión es similar a la "invasión de área", que reduce y refina el área resaltada o la parte blanca de la imagen, y la imagen resultante es más pequeña que el área resaltada de la imagen original.

[3] Conceptos relacionados del filtrado gaussiano

¿Por qué es necesario filtrar las imágenes? Una es eliminar el ruido generado o mezclado en la imagen durante el proceso de digitalización. El segundo es extraer las características de los objetos de imagen como patrones de características para el reconocimiento de imágenes.

¿Qué es el ruido gaussiano? En primer lugar, el ruido suele aparecer en las imágenes como píxeles aislados o bloques de píxeles que provocan fuertes efectos visuales. En pocas palabras, la aparición de ruido provocará interferencias en la imagen y hará que la imagen no sea clara. El ruido gaussiano es un tipo de ruido cuya función de densidad de probabilidad obedece a una distribución gaussiana (es decir, una distribución normal). Si la distribución de amplitud de un ruido obedece a una distribución gaussiana y su densidad espectral de potencia está distribuida uniformemente, se denomina ruido blanco gaussiano.

El filtrado gaussiano es un filtro de suavizado lineal que se puede utilizar para eliminar el ruido gaussiano. Su fórmula es la siguiente

Insertar descripción de la imagen aquí

Proceso de filtrado gaussiano:
asumiendo un núcleo gaussiano:

Insertar descripción de la imagen aquí

Entonces el proceso de cálculo del filtro gaussiano es el siguiente:

Insertar descripción de la imagen aquí

La suma de estos 9 valores es el valor del filtrado gaussiano del punto central. Repita este proceso para todos los puntos para obtener la imagen borrosa gaussiana.

¿Se puede descomponer el filtrado gaussiano bidimensional en operaciones unidimensionales? Se puede descomponer. El filtro gaussiano bidimensional se descompone en dos filtros gaussianos unidimensionales. La fórmula gaussiana bidimensional se puede deducir en la fórmula gaussiana unidimensional en los ejes X e Y. Es decir, se utiliza un núcleo gaussiano unidimensional para filtrar primero la imagen fila por fila y luego filtrar el resultado intermedio columna por columna.

[4] Conceptos relacionados con la detección de bordes

El borde de la imagen es la característica más básica de una imagen, que se refiere a la discontinuidad de las características locales de la imagen. El cambio repentino en la información de las características de la imagen se denomina borde, como un cambio repentino en el nivel de grises, el color, la estructura de la textura, etc. El borde es el final de un área y el comienzo de otra. Esta característica se puede utilizar para segmentar la imagen.

Insertar descripción de la imagen aquí

Cuando vemos un objeto con un borde, lo primero que sentimos es el borde.

La figura (a) anterior muestra las características de un borde ideal. Cada nivel de gris salta a un paso vertical. De hecho, debido a la influencia de factores como el rendimiento del sistema de adquisición de imágenes, la frecuencia de muestreo y las condiciones de iluminación para adquirir la imagen, los bordes obtenidos a menudo son borrosos y los bordes se simulan como perfiles con "superficies inclinadas". Como se muestra en (b) arriba, muestra que en este modelo, los bordes borrosos se vuelven "más anchos" y los bordes claros se vuelven "más estrechos".

Los bordes de las imágenes tienen dos atributos: dirección y amplitud. Los bordes normalmente se pueden detectar mediante derivadas primera o segunda. La derivada de primer orden toma el valor máximo como la posición del borde correspondiente, mientras que la derivada de segundo orden toma el punto de cruce por cero como la posición del borde correspondiente.

Operadores de borde derivados de primer orden de uso común : operador de Roberts, operador de Sobel y operador de Prewitt.

Operadores de borde derivados de segundo orden de uso común : Operadores laplacianos, este tipo de operador es sensible al ruido.

Otros operadores de bordes : los dos primeros tipos utilizan operadores diferenciales para detectar bordes de imágenes, y el otro es el operador Canny, que es un operador de optimización de detección de bordes derivado bajo ciertas restricciones.

[5] Conceptos relacionados con el filtrado de paso alto/bajo de imágenes

La operación de filtrado es un método muy práctico de preprocesamiento de datos de imágenes. El filtrado es un concepto en el campo del procesamiento de señales, y la imagen en sí también puede considerarse como una señal bidimensional, en la que el valor del píxel representa la intensidad de la señal.

La información de la imagen se puede dividir en dos dimensiones: alta frecuencia y baja frecuencia:

Alta frecuencia : puntos de la imagen donde la escala de grises cambia drásticamente, normalmente contornos de la imagen o ruido.

Baja frecuencia : Puntos planos y que cambian poco en la imagen, que ocupan la mayor parte del área de la imagen.

De acuerdo con las características de alta y baja frecuencia de la imagen, podemos diseñar los correspondientes filtros de paso alto y paso bajo, que pueden detectar y retener cambios nítidos y obvios en la imagen. El filtro de paso bajo puede suavizar la imagen y eliminar el ruido de la imagen.

Los filtros de paso bajo comunes incluyen: filtro medio lineal, filtro gaussiano, filtro bilateral no lineal y filtro mediano.

Los filtros de paso alto comunes incluyen: operador Canny, operador Sobel, operador Laplaciano y otros operadores de filtro de borde.

[6] Definición de información de baja frecuencia e información de alta frecuencia en imágenes

Información de baja frecuencia (componente de baja frecuencia) : representa el área de la imagen donde el valor de gris cambia lentamente, correspondiente al área plana grande de la imagen.

Información de alta frecuencia (componente de alta frecuencia) : representa el área de la imagen donde el valor de gris cambia drásticamente, correspondiente al borde (contorno) de la imagen y al ruido (la razón por la que el ruido también es un componente de alta frecuencia es porque el ruido de la imagen en la mayoría de los casos es de alta frecuencia) y detalles.

El componente de baja frecuencia es principalmente una medida integral de la intensidad de toda la imagen. Los componentes de alta frecuencia miden principalmente los bordes y contornos de la imagen (el ojo humano es más sensible a los componentes de alta frecuencia).

Comprensión desde la perspectiva de la transformada de Fourier : Desde la perspectiva de la transformada de Fourier, podemos convertir la imagen de una distribución en escala de grises a una distribución de frecuencia. El espectrograma obtenido después de la transformación de Fourier de la imagen es el diagrama de distribución del gradiente de la imagen. Específicamente, podemos ver puntos brillantes y oscuros en el diagrama del espectro de Fourier, que en realidad son la fuerza de la diferencia entre un determinado punto en la imagen y el punto del campo, es decir, el tamaño del gradiente. Si la intensidad de cada ubicación en una imagen es igual, la imagen solo tiene componentes de baja frecuencia. En el espectrograma de la imagen, solo hay un pico principal y está ubicado en la posición de frecuencia cero. Si la intensidad de cada posición en una imagen cambia drásticamente, la imagen no sólo tendrá componentes de baja frecuencia, sino también una variedad de componentes de alta frecuencia. En el espectro de la imagen, no solo hay un pico principal, sino también múltiples picos laterales. El componente de baja frecuencia de la imagen es la parte de la imagen con un gradiente más pequeño, y ocurre lo contrario con el componente de alta frecuencia .

【7】El concepto de profundidad de color.

La profundidad del color se refiere a la profundidad del color, es decir, la finura. En una imagen digital, la unidad más pequeña es un píxel. En una imagen RGB de tres canales, cada píxel se compone de tres canales: R, G y B, y normalmente se representa mediante un formato binario de 24 bits. Esto representa el número de dígitos binarios del color, que representa la profundidad del color.

[8] Técnicas de suavizado espacial comúnmente utilizadas

La tecnología de suavizado espacial (desenfoque) es una tecnología ampliamente utilizada en el procesamiento de imágenes para reducir el ruido de la imagen.
Las técnicas de suavizado espacial se pueden dividir en dos categorías principales: suavizado local (Suavizado local) y suavizado no local (Suavizado no local).
Los métodos de suavizado local utilizan píxeles cercanos para suavizar cada píxel. Al diseñar diferentes mecanismos de ponderación, se han producido muchos métodos clásicos de suavizado local, como el suavizado gaussiano, el suavizado medio, el suavizado medio, etc.

Los métodos de suavizado no local no se limitan a los píxeles cercanos, sino que utilizan información redundante que prevalece en la imagen global para eliminar el ruido. Específicamente, al encontrar áreas similares en la imagen en bloques de imagen más grandes, promediar estas áreas y reemplazar el bloque de imagen central, se puede eliminar mejor el ruido en la imagen. En la operación de promediado, se pueden ponderar parches de imágenes similares utilizando gaussiano, mediana y media.

【9】¿Cuál es la diferencia entre imágenes RAW e imágenes RGB?

Formato RAW: Los datos en formato digital original obtenidos del sensor de la cámara, también conocido como formato Bayer, cada información de píxel solo tiene una determinada información de color en RGB, y 2 de cada 4 píxeles son información G, y 1 información R, 1 información B , es decir, formato GRBG.

Formato RGB: el formato RGB se obtiene mediante el cálculo de interpolación de datos RAW, y cada píxel contiene información de los tres colores de RGB.

[10] Formatos de espacio de color comúnmente utilizados

Formatos de espacio de color comúnmente utilizados en aprendizaje profundo: RGB, RGBA, HSV, HLS, Lab, YCbCr, YUV, etc.

Insertar descripción de la imagen aquí

El espacio de color RGB se basa en tres colores básicos: rojo, verde y azul, que se superponen en distintos grados para producir colores ricos y amplios, por lo que se lo conoce comúnmente como el modo de tres colores primarios.

RGBA es un espacio de color que representa Rojo (rojo), Verde (verde), Azul (azul) y Alfa (transparencia).

El espacio de color HSV (Tono-Tono, Saturación-Saturación, Valor-Brillo) descompone el brillo del color y se usa ampliamente en algoritmos de mejora de imágenes.

El espacio de color HLS tiene tres componentes: tono (H), brillo (L) y saturación (S).

El espacio de color Lab es un modelo de color desarrollado por la CIE (Comisión Internacional de Iluminación). Cualquier color de la naturaleza se puede expresar en el espacio Lab y su espacio de color es mayor que el espacio RGB.

YCbCr realiza submuestreo de imágenes y es un espacio de color comúnmente utilizado en imágenes de vídeo e imágenes digitales. En los algoritmos generales de compresión de imágenes (como el algoritmo JPEG), el primer paso es convertir el espacio de color de la imagen en espacio YCbCr.

El espacio de color YUV es diferente del método de codificación RGB (gama de colores). RGB utiliza los tres colores primarios: rojo, verde y azul para representar colores. YUV usa brillo y croma para representar colores.

【11】 ¿Qué algoritmo de interpolación se usa comúnmente en el entrenamiento de modelos?

Los algoritmos de interpolación comúnmente utilizados para cambiar el tamaño de imágenes durante el entrenamiento del modelo incluyen la interpolación del vecino más cercano, la interpolación bilineal y la interpolación bicúbica.

Interpolación del vecino más cercano : No se considera la influencia de otros píxeles adyacentes, por lo que el valor de gris después del remuestreo tiene una discontinuidad obvia, la calidad de la imagen se pierde en gran medida y se producen fenómenos de mosaico y alias.

Interpolación bilineal : también llamada interpolación de primer orden, utiliza la correlación entre los cuatro píxeles vecinos más cercanos del píxel a determinar en la imagen de origen y obtiene el valor del píxel a determinar mediante dos interpolaciones lineales.

Interpolación bicúbica : también llamada interpolación de convolución cúbica, utiliza los valores de 16 píxeles adyacentes en la imagen fuente del píxel a determinar, es decir, el promedio ponderado de estos 16 píxeles.

【12】 ¿Operaciones de preprocesamiento de imágenes de uso común?

Generalmente, los datos primero se normalizan (normalización) [0, 1], luego se realiza la estandarización (estandarización), los datos se convierten a una distribución normal estándar utilizando el teorema de números grandes y, finalmente, se realiza algún procesamiento de mejora de datos.

Después de la normalización, se puede mejorar la precisión del modelo. Las características entre diferentes dimensiones son numéricamente comparables, lo que puede mejorar en gran medida la precisión del clasificador.
Después de la normalización, se puede acelerar la convergencia del modelo. El proceso de optimización de la solución óptima obviamente se volverá más fluido y será más fácil converger correctamente a la solución óptima.

Insertar descripción de la imagen aquí

【13】¿Cuáles son los indicadores de evaluación de calidad de imagen comúnmente utilizados?

  1. Relación pico-señal-ruido (PSNR)
  2. Error cuadrático medio (MSE)
  3. MAE (Error absoluto medio, MSE)
  4. Relación señal-ruido (SNR)
  5. Criterio de Fidelidad de la Información (IFC)
  6. Fidelidad de la información visual (VIF)
  7. Similitud de estructura (SSIM)

【14】¿Qué es la distorsión de la imagen?

Cuando se utiliza la cámara, las líneas del borde de la imagen pueden estar curvadas, especialmente cuando la parte del borde es una línea recta; este fenómeno es más obvio. Por ejemplo, cuando los marcos de las puertas, los postes de teléfono, las esquinas de las paredes, las líneas del techo, etc. en la pantalla de la cámara aparecen en el borde, puede haber un fenómeno de flexión relativamente obvio, fenómeno llamado distorsión.

La distorsión se refiere al grado de distorsión de la imagen formada por el sistema óptico en relación con el objeto mismo . Es una característica inherente de la lente óptica. La razón directa es que el aumento de la parte del borde y la parte central de la lente es diferente. La distorsión no afecta la claridad de la imagen, solo cambia la forma de la imagen del objeto. La distorsión es un fenómeno óptico omnipresente.

【15】¿Cómo convertir una imagen RGB a una imagen en escala de grises?

  1. Seleccione cualquier canal RGB como imagen en escala de grises
  2. El valor máximo en RGB es la imagen en escala de grises.
  3. Valor medio de RGB como imagen en escala de grises
  4. Media ponderada de RGB como imagen en escala de grises

【16】 ¿Cuáles son los conceptos de transformación afín y transformación de perspectiva?

La transformación afín es una transformación lineal de coordenadas bidimensionales a coordenadas bidimensionales que realiza operaciones como traslación, escala, inclinación y rotación en imágenes. Mantiene la "rectitud" de los gráficos bidimensionales (las líneas rectas siguen siendo líneas rectas después de la transformación) y el "paralelismo" (la relación posicional relativa entre los gráficos bidimensionales permanece sin cambios, las líneas paralelas siguen siendo líneas paralelas y las líneas rectas son El orden de posición de los puntos permanece sin cambios).

La transformación de perspectiva es la proyección de una imagen a un nuevo plano de visión, también llamado mapeo de proyección. Es una operación de mapeo que proyecta una imagen bidimensional en un espacio tridimensional y luego la proyecta nuevamente en otro espacio bidimensional.

La mayor diferencia entre la transformación afín y la transformación en perspectiva: un paralelogramo sigue siendo un paralelogramo después de la transformación afín; pero después de la transformación en perspectiva es solo un cuadrilátero (ya no es paralelo).

【17】¿Cuáles son los tipos de ruido de la imagen?

Ruido general

  1. ruido gaussiano
  2. ruido impulsivo
  3. ruido venenoso
  4. ruido multiplicativo
  5. ruido de rayleigh
  6. ruido gamma
  7. ruido exponencial
  8. ruido uniforme
  9. ruido de sal y pimienta
  10. disparo
  11. ruido venenoso

Luchando contra el ruido

  1. Caja blanca contra el ruido.
  2. Consultas de caja negra contra el ruido
  3. ruido de migración de caja negra
  4. Física contra el ruido

[18] ¿Cuál es la diferencia entre OpenCV y PIL en Python?

  1. Al leer una imagen, OpenCV representa el canal según el modo de color BGR, mientras que PIL representa el canal según el modo de color RGB.
  2. OpenCV tiene un mejor rendimiento y puede utilizarse como un módulo esencial para algoritmos e ingeniería.

【19】 ¿Cuáles son los algoritmos de eliminación de ruido de imágenes más utilizados?

  • Eliminación de ruido en el dominio espacial: filtro medio, filtro mediano, filtro de paso bajo, filtro gaussiano, filtro bilateral, filtro guiado, algoritmo NLM (medios no locales), etc.
  • Eliminación de ruido en el dominio de la frecuencia: transformada wavelet, transformada de Fourier, transformada de coseno discreta, filtrado morfológico, etc.

[20] ¿Cuáles son los métodos de separación de información en el dominio de frecuencia de la imagen comúnmente utilizados?

Se pueden utilizar filtros en el dominio de la frecuencia, como la transformada wavelet, la transformada de Fourier, la transformada de coseno, el filtrado morfológico y otros métodos, para separar la información de alta y baja frecuencia de la imagen.

【21】 ¿Cuáles son los operadores de gradiente diferencial de primer orden comúnmente utilizados?

operador de gradiente

Para obtener el gradiente de una imagen, es necesario calcular la derivada parcial en cada píxel de la imagen. Por lo tanto una imagen fff( x , y ) (x,y)( X ,y ) xxen la posiciónx y y Tamaño del gradiente gx g_{x}en la dirección ygramox g y g_{y} gramoyCalculado respectivamente como:

Las dos fórmulas anteriores se aplican a todos los xx.x y y El valor calculado de y se puede calcular utilizando el siguiente par de plantillas unidimensionalesf (x, y) f(x,y)f ( x ,y ) se obtiene filtrando.

La plantilla de filtro utilizada para calcular las derivadas parciales del gradiente generalmente se denomina operador de gradiente, operador de borde, detector de borde, etc.

Operador de gradiente clásico de primer orden

operador de roberts

El operador de Roberts, también llamado algoritmo diferencial cruzado, es un algoritmo de gradiente basado en diferencias cruzadas y detecta líneas de borde mediante cálculos de diferencias locales. A menudo se utiliza para procesar imágenes empinadas y con poco ruido. Cuando el borde de la imagen está cerca de más 45 grados o menos 45 grados, este algoritmo tiene mejores resultados de procesamiento . Su desventaja es que el posicionamiento de los bordes no es muy preciso y las líneas de los bordes extraídas son más gruesas.

La plantilla del operador de Roberts se divide en direcciones horizontal y vertical, como se muestra en la siguiente fórmula: se puede ver en su plantilla que el operador de Roberts puede mejorar mejor los bordes de la imagen de más y menos 45 grados.

Por ejemplo, la plantilla del operador de Roberts se proporciona a continuación, en el punto de píxel P 5 P5P 5 plazasxxx y y Tamaño del gradiente gx g_{x}en la dirección ygramox g y g_{y} gramoyCalculado respectivamente como:

La siguiente figura es el resultado de ejecución del operador de Roberts:

operador prewitt

El operador Prewitt es un operador diferencial para la detección de bordes de imágenes. Su principio es utilizar la diferencia generada por el valor de gris del píxel en un área específica para lograr la detección de bordes . Dado que el operador Prewitt usa 3 × 3 3\times33×3 La plantilla de convolución calcula los valores de píxeles en el área, mientras que la plantilla del operador Robert es2 × 2 2\times22×2 , por lo que los resultados de detección de bordes del operador de Prewitt son más obvios que los del operador de Robert tanto en la dirección horizontal como en la vertical. El operador Prewitt es adecuado para identificar imágenes con mucho ruido y gradientes de escala de grises, su fórmula de cálculo es la siguiente:

Por ejemplo, la plantilla del operador Prewitt se proporciona a continuación, en el punto de píxel P 5 P5P 5 plazasxxx y y Tamaño del gradiente gx g_{x}en la dirección ygramox g y g_{y} gramoyCalculado respectivamente como:

Los resultados del operador Prewitt son los siguientes:

operador sobel

El operador de Sobel es un operador diferencial discreto para la detección de bordes que combina suavizado gaussiano y derivación diferencial. Este operador se utiliza para calcular el valor aproximado del brillo de la imagen. De acuerdo con el brillo junto al borde de la imagen, los puntos específicos que exceden un cierto número en el área se registran como bordes . El operador de Sobel agrega el concepto de peso sobre la base del operador de Prewitt. Cree que la distancia entre puntos adyacentes tiene diferentes efectos en el píxel actual. Cuanto más cerca esté la distancia del píxel, mayor será el impacto en el píxel actual, por lo que Realización de la imagen Enfoque y acentúe los contornos de los bordes.

El operador Sobel detecta bordes basándose en la diferencia ponderada en el nivel de gris entre los puntos adyacentes superior e inferior y derecho e izquierdo de un píxel, alcanzando un valor extremo en el borde. Tiene un efecto de suavizado del ruido y proporciona información más precisa sobre la dirección de los bordes. Debido a que el operador Sobel combina suavizado gaussiano y derivación diferencial (diferenciación), el resultado será más resistente al ruido. Cuando los requisitos de precisión no son muy altos, el operador Sobel es un método de detección de bordes más utilizado.

El posicionamiento de bordes del operador Sobel es más preciso y se utiliza a menudo en imágenes con mucho ruido y gradientes de escala de grises. Su plantilla de algoritmo se muestra en la siguiente fórmula, donde dx d_{x}dxRepresenta la dirección horizontal, dy d_{y}dyIndica la dirección vertical.

Por ejemplo, la plantilla del operador Sobel se proporciona a continuación, en el punto de píxel P 5 P5P 5 plazasxxx y y Tamaño del gradiente gx g_{x}en la dirección ygramox g y g_{y} gramoyCalculado respectivamente como:

El efecto del operador sobel es el siguiente:

Ventajas y desventajas de varios operadores

operador de roberts

El operador de Roberts utiliza operadores de diferencia local para encontrar bordes. La precisión del posicionamiento del borde es alta, pero es fácil perder parte del borde y no tiene la capacidad de suprimir el ruido. Este operador funciona mejor para imágenes con bordes pronunciados y menos ruido, especialmente imágenes con bordes de más de 45 grados más o menos, pero la precisión del posicionamiento es deficiente.

operador sobel

El operador Sobel tiene en cuenta factores integrales y tiene un mejor efecto de procesamiento en imágenes con más ruido. El operador Sobel tiene un buen efecto de posicionamiento de bordes, pero los bordes detectados son propensos a tener un ancho de varios píxeles.

operador prewitt

El operador Prewitt tiene un mejor efecto en la extracción de bordes de la imagen de gradientes en escala de grises, sin considerar el impacto de la distancia de los puntos adyacentes en el píxel actual. Es similar al operador Sobel, excepto que el peso de la parte lisa es algo diferente.

【22】Conceptos relacionados del operador laplaciano

El operador laplaciano es un operador de segundo orden. En comparación con el operador diferencial de primer orden, el operador diferencial de segundo orden tiene una mayor capacidad de posicionamiento de bordes y un mejor efecto de afilado .

El método básico para utilizar operadores diferenciales de segundo orden es definir una forma discreta de diferencial de segundo orden y luego generar una plantilla de filtro basada en esta forma para convolucionar con la imagen.

Los filtros se dividen en filtros isotrópicos y filtros anisotrópicos. Cuando un filtro isotrópico convoluciona con una imagen, la respuesta permanece sin cambios después de girar la imagen, lo que indica que la plantilla de filtro en sí es simétrica. Si es un filtro anisotrópico, cuando la imagen original se gira 90 grados, se pueden detectar detalles (mutación) en un determinado punto de la imagen original, pero ahora no se puede detectar, lo que significa que el filtro no es simétrico. Dado que el operador laplaciano es el operador diferencial isotrópico más simple, es rotacionalmente invariante .

Para una imagen bidimensional f ( x , y ) f(x,y)f ( x ,y ) , la definición más simple de diferencial de segundo orden (definición del operador de Laplace):

Los operadores diferenciales de cualquier orden son operadores lineales, por lo que los operadores diferenciales de segundo orden y los operadores diferenciales posteriores de primer orden pueden obtener resultados generando plantillas y luego convolucionándolas.

Según la definición anterior de diferencial de segundo orden:

Según la definición anterior, combinada con la definición del operador laplaciano, podemos obtener:

Es decir, el resultado del cálculo del operador laplaciano de un punto es la suma de los niveles de gris superior, inferior, izquierdo y derecho menos cuatro veces el propio nivel de gris. De manera similar, según diferentes definiciones de diferenciales de segundo orden, todos los signos son opuestos, es decir, todos los valores de gris en la fórmula anterior son todos signos menos, es decir, -1, -1, -1, -1, 4. Sin embargo, debemos prestar atención al hecho de que cuando cambia el signo, la suma o resta de la imagen original debe cambiar en consecuencia al enfocar. Lo anterior son los cuatro operadores laplacianos adyacentes. Después de rotar este operador 45 grados y compararlo con el operador original, se convierte en un operador de ocho vecindarios, es decir, un píxel está rodeado por 8 píxeles en un círculo. La diferencia entre la suma y se utilizan 8 veces el píxel del medio como resultado del cálculo laplaciano.

Debido a que es necesario enfatizar las mutaciones (detalles) en la imagen, las áreas suaves en escala de grises no tienen respuesta, es decir, la suma de los coeficientes de la plantilla es 0, que también es una condición necesaria para la diferenciación de segundo orden.

Fórmula de afilado final:

Entre ellos, gg.g es la salida,fff es la imagen original,ccc es un coeficiente utilizado para ajustar la cantidad de detalles agregados.

A continuación utilizamos una imagen más vívida para explicar la eficacia del operador laplaciano.

En el borde, el valor del píxel "salta" o cambia significativamente. El "salto" en el valor gris en (a) a continuación indica la existencia de un borde. Si utilizamos la derivación diferencial de primer orden, podemos ver más claramente la existencia de "saltos" de borde (que se muestran aquí como picos altos) en la Figura (b).

¿Qué sucede si encuentras la segunda derivada en la arista, como se muestra en la Figura ©?

Imagen (una)

Figura (b)

Figura (c)

Encontraremos que en la posición extrema de la primera derivada, la segunda derivada es 0. Por tanto, también podemos utilizar esta función como método para detectar bordes de imágenes. Sin embargo, los valores 0 de la segunda derivada no solo aparecen en los bordes (también pueden aparecer en posiciones sin sentido), sino que podemos filtrar estos puntos.

Para que sea más adecuado para el procesamiento de imágenes digitales, lo expresamos en forma discreta como se muestra en la fórmula anterior. Para transformarlo mejor, también podemos expresarlo en forma de plantilla:

La figura anterior (a) representa la plantilla del operador laplaciano discreto, (b) representa su plantilla extendida y (c) representa las plantillas de implementación de los otros dos operadores laplacianos.

Es fácil ver en el formulario de plantilla que si aparece un punto brillante en un área más oscura de la imagen, el uso de la operación laplaciana hará que el punto brillante sea más brillante . Debido a que los bordes de una imagen son áreas donde saltan los niveles de gris, las plantillas de nitidez laplacianas son útiles en la detección de bordes.

Es difícil para las técnicas de mejora generales determinar la ubicación de las líneas de borde para bordes empinados y bordes que cambian lentamente. Sin embargo, este operador puede ser determinado por el punto de cruce por cero entre el pico positivo y el pico negativo del diferencial cuadrático. Es más sensible a puntos aislados o extremos, por lo que es especialmente adecuado para resaltar puntos aislados, aislados. líneas o puntos finales de línea en la imagen . Al igual que el operador de gradiente, el operador laplaciano también mejorará el ruido en la imagen. A veces, cuando se utiliza el operador laplaciano para la detección de bordes, la imagen se puede suavizar primero.

La función de la nitidez de la imagen es mejorar el contraste de la escala de grises, haciendo así más clara la imagen borrosa . La esencia del desenfoque de imagen es que la imagen se somete a una operación promedio o operación integral, por lo que se puede realizar la operación inversa en la imagen. Por ejemplo, la operación diferencial puede resaltar los detalles de la imagen y hacerla más clara. Dado que el laplaciano es un operador diferencial, su aplicación puede mejorar las áreas con cambios repentinos de escala de grises en la imagen y debilitar las áreas con escalas de grises que cambian lentamente. Por lo tanto, para el procesamiento de nitidez, puede elegir el operador laplaciano para procesar la imagen original para generar una imagen que describa la mutación en escala de grises y luego superponer la imagen laplaciana con la imagen original para generar una imagen más nítida .

Este método de nitidez simple no solo puede producir el efecto de nitidez laplaciana, sino que también retiene la información de fondo. Al superponer la imagen original en el resultado del procesamiento de la transformada de Laplace, puede hacer que cada gris en la imagen se conserve el valor de gris, de modo que se mejora el contraste en la mutación de la escala de grises. El resultado final es resaltar los pequeños detalles de la imagen conservando el fondo de la imagen . Pero su desventaja es que produce una doble respuesta a ciertos bordes de la imagen.

Finalmente, echemos un vistazo al efecto del operador laplaciano:

【23】 ¿Qué formato utiliza OpenCV para leer imágenes?

Por lo general, otras funciones de lectura de imágenes leen imágenes en formato RGB, pero cuando OpenCV lee imágenes, las lee en formato BGR .

【24】 Conceptos relacionados de filtrado de mediana y filtrado de media

El filtrado medio también se denomina filtrado lineal y el método principal que utiliza es el método de promedio de vecindad. El principio básico del filtrado lineal es reemplazar cada valor de píxel en la imagen original con el valor medio , es decir, el punto de píxel actual que se procesará (x, y) (x, y)( X ,y ) , seleccione una plantilla, que se compone de varios píxeles en su vecindad inmediata, encuentre la media de todos los píxeles de la plantilla y luego asigne la media al píxel actual(x, y) (x,y)( X ,y ) , como el valor de gris de la imagen procesada en ese puntog (x, y) g(x,y)gramo ( x ,y ),即g ( x , y ) = 1 m Σ f ( x , y ) g(x,y)=\frac{1}{m} \Sigma f(x,y)gramo ( x ,y )=metro1Σ f ( x ,y ) ,mmm es el número total de píxeles de la plantilla, incluido el píxel actual. Este método puede suavizar imágenes, es rápido y tiene un algoritmo simple. No puede eliminar el ruido, pero puede atenuarlo ligeramente.

El filtrado de mediana es una técnica de suavizado no lineal que establece el valor de gris de cada píxel en la mediana de los valores de gris de todos los píxeles en una ventana vecina de ese punto . El proceso de implementación específico es el siguiente:

  1. Ordene tomando un número impar de datos de una determinada ventana de muestreo en la imagen.
  2. Utilice el valor mediano ordenado como valor de gris del píxel actual.
  3. En el procesamiento de imágenes, el filtrado mediano se utiliza a menudo para proteger la información del borde. Es un método clásico para suavizar el ruido. Este método es muy eficaz para eliminar el ruido de sal y pimienta. Tiene un papel especial en el método de procesamiento de análisis de fase de la franja de medición óptica. imágenes, pero en Es de poca utilidad en el método de análisis del centro marginal .

El filtrado medio se utiliza a la izquierda y el filtrado mediano a la derecha.

Supongo que te gusta

Origin blog.csdn.net/weixin_51390582/article/details/135173257
Recomendado
Clasificación