Notas de revisión de comprensión de imágenes y visión por computadora de Xidian Zhike (básicamente completadas)

Directorio de artículos

error corregido

  1. Corregido el error del barrio a la cancha, 13 junio 2023 a las 11:00 am
  2. Corrección de función inversa de conos y bastones, 13 de junio de 2023 a las 17:00

Comprensión de imágenes y revisión final de visión por computadora

Muchas gracias Sr. Cai por proporcionar el plan de revisión.

Se recomienda usar la computadora para revisar el catálogo, porque el terminal móvil solo puede mostrar el catálogo por debajo del tercer nivel
o usar el esquema de revisión de otros estudiantes.Si no conoce los puntos de conocimiento, puede hacer clic en este blog. para ver la introducción de los puntos de conocimiento correspondientes

Si cree que es útil para usted, no sea tacaño con Me gusta gratis en sus manos, ¡gracias!

Debido a mi capacidad limitada, es inevitable que haya errores en el texto, si lo encuentra, puede corregirlo.

Tipo de pregunta y proporción de puntuación

tipo de pregunta Relación de puntuación
radio 10 × 2 10\veces 210×2
llena el espacio en blanco 10 × 2 10\veces 210×2
respuesta corta 4 × 5 4\veces 54×5
calcular 2 × 10 2\veces 102×10
conversar 2 × 10 2\veces 102×10

puntos de conocimiento

introducción

forma de percepción

Cinco sentidos: vista, oído, gusto, olfato, tacto

Entre ellos, la visión es el sistema más informativo ( 60 % ∼ 90 % 60\%\sim 90\%60%90%

El contenido principal del procesamiento de imágenes.

  • Adquisición de información de imagen.
  • almacenamiento de información de imagen
  • Transmisión de información de imagen.
  • Procesamiento de la información de la imagen.
  • Salida de imagen y visualización

comprensión de la imagen

La comprensión de la imagen es la comprensión semántica de las imágenes.

La comprensión de imágenes es:
(1) Tomar imágenes como objetos (
2) Tomar el conocimiento como núcleo
Investigación: (1) Objetos
en imágenes (2) Interrelaciones entre objetos (3) Escenas en imágenes (4) Cómo aplicar escenas


Tres niveles de comprensión de imágenes:

  1. Nivel bajo: procesamiento de imágenes
  2. Nivel medio: análisis de imágenes
  3. Nivel alto: Comprensión de imágenes

El propósito
inserte la descripción de la imagen aquí
de la comprensión de imágenes es el siguiente :

  • Procesar imágenes para satisfacer las necesidades visuales y psicológicas de las personas.
  • Analizar y comprender objetos en imágenes.

Los componentes básicos de un sistema de comprensión de imágenes:
inserte la descripción de la imagen aquí

Aplicaciones

  • Reconocimiento facial
  • Reconocimiento y análisis de imágenes
  • Conducción asistida, conducción inteligente
  • Diagnóstico por Imagen Médica
  • Edición de imagen, Edición de video

sistema visual

estructura basica

Anatómicamente, está formado por el globo ocular y el sistema nervioso óptico.

  • globo ocular:
    • Sistema refractivo
      Córnea, cristalino, etc.
    • sistema fotosensible
      retina

Desde la perspectiva de la estructura física: compuesta por el sistema óptico , la retina y la vía visual

  • Células visuales en la retina ("siguiendo el ojo")
    • Conos : diurno, percepción del color.
    • Células bastón : noche, percepción del brillo.

La siguiente figura es el diagrama de la estructura física del sistema de visión:
inserte la descripción de la imagen aquí

Características del ojo humano

adaptación de brillo

La percepción del brillo del ojo humano varía con las condiciones de iluminación , por lo que la percepción del brillo del ojo humano es subjetiva.

No sé si habrás notado este fenómeno:
(1) Por la noche, cuando apagues las luces y te vayas a dormir, tus ojos estarán completamente oscuros, pero después de un tiempo, verás gradualmente los objetos circundantes con claridad. . En este momento, al ingresar repentinamente a un ambiente oscuro desde un ambiente brillante, el ojo humano es relativamente menos sensible a la percepción del brillo
(2) Será muy deslumbrante ingresar repentinamente a un ambiente brillante desde un ambiente oscuro, pero será mucho mejor Al poco tiempo

inhibición lateral

Las neuronas excitantes detrás de los dedos inhiben sus neuronas excitadas adyacentes .

Es estimular una neurona para excitarla, y luego estimular las neuronas adyacentes para excitarla, y la neurona excitada detrás tendrá un efecto inhibitorio sobre la neurona excitada antes.

El fenómeno de la inhibición lateral: (No sé por qué existe tal fenómeno)

  1. fenómeno uno
    inserte la descripción de la imagen aquí

  2. fenómeno dos
    inserte la descripción de la imagen aquí

Efecto de cinturón de Mach

Se refiere a la percepción subjetiva de la visión donde aparecen rayas ilusorias brillantes u oscuras donde cambia el brillo, como se muestra en la siguiente figura:

inserte la descripción de la imagen aquí

Los efectos de la banda Mach son causados ​​por la supresión lateral .

La explicación del efecto de la banda de Mach es que
el sistema visual humano tiene un mecanismo para mejorar el contraste de los bordes.

campo receptivo

Se refiere a la zona de la retina donde la luz puede alterar la actividad de esta neurona

Por definición, el campo receptivo es un área en la retina.
Cuando la luz incide en esta área, las neuronas se excitarán
y la luz fuera del campo receptivo no tendrá ningún efecto sobre el disparo de la neurona.

inercia visual

La percepción de brillo del ojo humano no desaparecerá inmediatamente con la desaparición del brillo del objeto , pero hay un tiempo de transición , que es la inercia visual.

Una aplicación de la inercia visual es la proyección de películas.

visión deportiva

El tiempo de reacción es más corto cuando se aplica luz a la fóvea del ojo. Cuanto más lejos de la fóvea mayor es el tiempo de reacción

Contornos subjetivos e ilusiones espaciales

Perfil del supervisor:
inserte la descripción de la imagen aquí

Ilusión espacial:
inserte la descripción de la imagen aquí

modelo visual

Modelo de visión monocromática

El análogo más simple del modelo monocromático es un filtro de paso bajo seguido de un filtro de paso alto .

  • Filtro de paso bajo: simula el sistema óptico del ojo humano
  • Filtro de paso alto: refleja el efecto de la banda Mach causado por la supresión lateral
modelo de visión de color

Tres colores primarios de luz emitida: rojo, verde, azul (RGB)

Tres colores primarios de luz reflejada: cian, magenta, amarillo (CMY)

Se puede hacer cualquier otro color mezclando estos tres colores.

Análisis de señal de imagen

modelo de iluminación

  • luz ambiental
    luz solar
  • Reflexión difusa
    Reflexión de superficies rugosas
  • reflejo del espejo reflejo
    del espejo

función de brillo

Función de brillo bidimensional:

  • yo = f ( x , y ) yo=f(x,y)I=f ( x ,y )
    • x, yx,yx ,y es la coordenada del plano
    • III es la intensidad de píxeles

Una función de brillo más general:

  • yo = f ( x , y , z , λ , t ) yo=f(x,y,z,\lambda,t)I=f ( x ,y ,z ,yo ,t )
    • x, y, zx,y,zx ,y ,z es la coordenada espacial
    • λ \lambdaλ es la longitud de onda de la luz, con información de color
    • ttt es el tiempo, que representa la imagen en movimiento
    • III es la intensidad del píxel.

Propiedades de las imágenes digitales

resolución

Píxeles por unidad de longitud (pulgadas)

escala de grises

El número total de niveles de gris que contiene la imagen se denomina nivel de gris.

relación entre píxeles

proximidad
  1. Vecindarios (propiedades de píxeles individuales)
    • 4 44 barrios
    • D \ texto Dbarrio d
    • 8 88 barrios
  2. Adyacencia (la relación entre dos píxeles)
    Si un píxel está en la vecindad de otro píxel, se dice que los dos píxeles son adyacentes
    • 4 44 adyacentes
    • D \ texto DD adyacencia
    • 8 88 contiguos

Vecindario primero, adyacencia segundo

conectividad

  1. Conexión
    Solo cuando se cumplen dos condiciones se puede llamar conexión: una es que los valores de gris sean similares ; la otra es que dos píxeles sean adyacentes
    • 4 44 conexiones
    • 8 88 conexiones
    • m \ texto mm -connect (conexión híbrida)
      píxelppp ,qqq metro \texto metrom conexión siempre queuna de
      1. Dos píxeles 4 44 adyacentes
      2. dos píxeles D \text DD es adyacente, pero sus4 44 barrios no se cruzan
  2. Adyacente
    Si dos píxeles están conectados, se dice que son adyacentes a
    4 , 8 , m 4,8,\text m4 ,8 ,m contiguo
  3. ruta
    p ( x 0 , y 0 ) , q ( xn , yn ) p(x_0,y_0),q(x_n,y_n)pag ( x0,y0) ,q ( ​​xn,yn) se puede expresar como:
    L ( p , q ) = ( x 0 , y 0 ) → ( x 1 , y 1 ) → ( x 2 , y 2 ) → ⋯ → ( xn , yn ) L (p,q) =(x_0,y_0)\flecha derecha(x_1,y_1)\flecha derecha(x_2,y_2)\flechaderecha\cdots\flechaderecha(x_n,y_n)L ( pag ,q )=( X0,y0)( X1,y1)( X2,y2)( Xn,yn)
    su punto medio de la imagen( xi , yi ) (x_i,y_i)( Xyo,yyo) punto dado( xi − 1 , yi − 1 ) (x_{i-1},y_{i-1})( Xyo 1,yyo 1) junto a
  4. conectado
    p , qp,qpag ,Si q tiene un camino, se llamap , qp,qpag ,q esta conectado
distancia

Hay dos píxeles p ( x , y ) , q ( s , t ) p(x,y),q(s,t)pag ( x ,y ) ,q ( s ,t )

  1. Distancia euclidiana
    DE ( pags , q ) = ( x − s ) 2 + ( y − t ) 2 D_E(p,q)=\sqrt{(xs)^2+(yt)^2}Dmi( pag ,q )=( Xs )2+( yt )2
  2. Distancia entre bloques
    re 4 ( pags , q ) = ∣ x − s ∣ + ∣ y − t ∣ D_4(p,q)=|xs|+|yt|D4( pag ,q )=xs +yt
    re 4 = 1 D_4=1D4=El píxel de 1 es el píxel( x , y ) (x,y)( X ,y ) 4 barrio
  3. Distancia del tablero
    re 8 ( pags , q ) = max ⁡ { ∣ x − s ∣ , ∣ y − t ∣ } D_8(p,q)=\max{\{|xs|,|yt|\}}D8( pag ,q )=máximo{ xs ,yt }
    re 8 = 1 D_8=1D8=El píxel de 1 es el píxel( x , y ) (x,y)( X ,y ) 8 barrio

Operaciones entre píxeles

operación aritmética

Para imágenes en escala de grises , hay { + , − , × , ÷ } \{+,-,\times,\div\}{ + ,,× ,÷ } cuatro operaciones

operación lógica

Para imágenes binarias , hay {y, o, no} \{y, o, no\}{ con ,o ,No } tres tipos de operaciones

operación de plantilla

inserte la descripción de la imagen aquí

z = ∑ yo = 1 9 wiziz=\sum\limits_{i=1}^9w_iz_iz=yo = 19wyozyo

Representación de código de cadena de límite

Hay dos tipos de códigos de cadena:

  • código de 4 cadenas
    inserte la descripción de la imagen aquí

  • 8 código de cadena
    inserte la descripción de la imagen aquí

código de cadena original

inserte la descripción de la imagen aquí

El código de cuatro cadenas se expresa como
M 4 = 10103322 M_4=10103322METRO4=10103322

El código de cadena original tiene invariancia de traducción, pero no invariancia de rotación y unicidad.

Código de cadena normalizado

El código de cadena original con el valor más pequeño.
inserte la descripción de la imagen aquí

M4 = 01033221 M_4=01033221METRO4=01033221
Los códigos diferenciales normalizados son invariantes de traducción y únicos, pero no invariantes de rotación

código diferencial

La fórmula de cálculo del código diferencial es:
bi = ( ai − ai − 1 ) mod 4 o 8 b_i=(a_i-a_{i-1})\ \text{mod}\ 4\ \text{or}\ 8byo=( unyoayo 1módulo 4 u 8 _    
inserte la descripción de la imagen aquí

M4 = 33133030 M_4=33133030METRO4=33133030

Los códigos diferenciales son invariantes de traslación e invariantes de rotación, pero no únicos.

código diferencial normalizado

El código de diferencia más pequeño
M 4 = 03033133 M_4=03033133METRO4=03033133

Los códigos diferenciales normalizados tienen invariancia de traducción, invariancia de rotación y unicidad.

La representación del número de forma del límite.

El límite está representado por un código diferencial normalizado , que es la representación del número de forma del límite

Orden de forma : longitud de secuencia

Sistemas invariantes lineales y de traslación

Un sistema que satisface el teorema de homogeneidad y el teorema de superposición se llama sistema lineal

  • Teorema de Homogeneidad: T [ ax ] = a T [ x ] T[ax]=aT[x]T [ una x ]=una T [ x ]
  • Teorema de superposición: T [ x 1 + x 2 ] = T [ x 1 ] + T [ x 2 ] T[x_1+x_2]=T[x_1]+T[x_2]T [ x1+X2]=T [ x1]+T [ x2]

sistema invariante de traducción

  • y ( yo ) = T [ x ( yo ) ] y(i)=T[x(i)]y ( yo )=T [ x ( yo )] y ( yo - metro ) = T [ x ( yo - metro ) ] y(im)=T[x(im)]y ( yom )=T [ x ( yom )]

La linealidad y la invariancia de traducción son dos propiedades independientes , las dos no están relacionadas

circunvolución

Un método útil para la convolución discreta unidimensional es la multiplicación sin acarreo , y el algoritmo específico se refiere a señales y sistemas

Método de convolución discreta bidimensional
inserte la descripción de la imagen aquí

transformación de imagen

¿Por qué hay una transformación?

  • Los problemas que no se pueden resolver en el dominio del tiempo se resuelven fácilmente transformándolos en otros espacios, como el espacio en el dominio de la frecuencia de la transformada de Fourier, que es conveniente para filtrar

Transformación ortogonal

La forma normal de una transformación ortogonal es:

  • 正变换
    GRAMO ( tu ) = ∑ yo = 0 norte - 1 F ( X ) t ( X , tu ) , tu = 0 , 1 , ⋯ , norte - 1 G(u)=\sum\limits_{i=0} ^{N-1}f(x)t(x,u),\ u=0,1,\cdots, N-1G ( )=yo = 0norte - 1f ( x ) t ( x ,tu ) , tu=0 ,1 ,,norte1
    de los cualest ( x , u ) t(x,u)t ( x ,u ) es el kernel de transformación directa
  • 反变换
    f ( X ) = ∑ yo = 0 norte - 1 GRAMO ( tu ) h ( X , tu ) , X = 0 , 1 , ⋯ , norte - 1 f(x)=\sum\limits_{i=0} ^{N-1}G(u)h(x,u),\ x=0,1,\cdots, N-1f ( x )=yo = 0norte - 1G ( tu ) h ( x ,tu ) , X=0 ,1 ,,norte1
    de los cualesh ( x , u ) h(x,u)h ( x ,u ) es el kernel de transformación inversa

Se llama transformación ortogonal porque:

  • t ( X , 0 ) , t ( X , 1 ) , ⋯ , t ( X , norte - 1 ) t(x,0),t(x,1),\cdots,t(x,N-1)t ( x ,0 ) ,t ( x ,1 ) ,,t ( x ,norteLas funciones en 1 ) son ortogonales entre sí
  • h ( 0 , tu ) , h ( 1 , tu ) , ⋯ , h ( norte - 1 , tu ) h(0,u),h(1,u),\cdots,h(N-1,u)h ( 0 ,tu ) ,h ( 1 ,tu ) ,,h ( norte1 ,Las funciones en u ) son ortogonales por pares

Cuando el núcleo de transformación directa bidimensional t ( x , y , u , v ) t(x,y,u,v)t ( x ,y ,tu ,v )满足
t ( x , y , tu , v ) = t 1 ( x , u ) t 2 ( y , v ) t(x,y,u,v)=t_1(x,u)t_2(y,v )t ( x ,y ,tu ,v )=t1( X ,tu ) t2( y ,v ) ,
se dice que la transformación ortogonal tieneseparabilidad

Un conocido:

  • Imagen de entrada N × NN\times Nnorte×N matrizF \mathbf FF
  • Transformar N × NN\veces Nnorte×N matrizT \mathbf TT

Representación matricial de la transformación ortogonal :

  • 正变换G = TFT \mathbf G=\mathbf T\mathbf F\mathbf TGRAMO=TFT
  • 逆变换F ^ = HGH \widehat{\mathbf F}=\mathbf H\mathbf G\mathbf HF =HGH
    dondeH \mathbf{H}H es la matriz de transformación inversa
    cuandoH = T − 1 \mathbf{H}=\mathbf{T}^{-1}H=T1时,F ^ = F \widehat{\mathbf F}=\mathbf FF =F
    H ≠ T − 1 \mathbf{H}\neq\mathbf{T}^{-1}H=T1时,F ^ ≈ F \widehat{\mathbf F}\approx\mathbf{F}F F
Transformada de Fourier
transformada de coseno discreta

La transformada de coseno discreta es una forma especial de transformada de Fourier discreta

Ventajas: la transformada de coseno discreta tiene una mejor densidad de agregación de energía en el dominio de la frecuencia que la transformada de Fourier discreta

Una aplicación: el algoritmo de compresión de imágenes que utilizan las imágenes jepg es la transformada de coseno discreta

transformada wavelet

La razón por la cual se propone la transformada wavelet:
Para solucionar el problema de que la transformada de Fourier no puede distinguir el tiempo en que aparece cada componente de frecuencia al analizar una señal no estacionaria cuya frecuencia cambia con el tiempo

De la transformada de Fourier a la transformada wavelet se ha experimentado el siguiente proceso:
Transformada de Fourier → \rightarrow transformada de Fourier con ventana→ \rightarrow Transformada wavelet

Transformada de Walsh

Ventajas: en comparación con la transformada de Fourier, la transformada de Walsh solo tiene la suma y resta de números reales pero no la multiplicación de números complejos, lo que hace que la velocidad de cálculo sea rápida y el espacio de almacenamiento sea pequeño, lo que favorece la implementación de hardware y es adecuado para procesamiento en tiempo real y operaciones de datos a gran escala Tiene un atractivo especial
Desventajas: compresión ineficiente , por lo que no tiene mucho uso práctico

Las reglas de construcción de la matriz de Walsh:

  1. 2 × 2 2\veces 22×Núcleo de transformación 2
    W 2 = [ 1 1 1 − 1 ] \mathbf{W}_2=\begin{bmatrix}1&1\\1&-1\end{bmatrix}W2=[111 1]

  2. 4 × 4 4\veces 44×4 núcleos de transformación
    inserte la descripción de la imagen aquí

    Presta atención a la observación y W 2 \mathbf{W}_2W2Relación

  3. 8 × 8 8\veces 88×8 núcleos de transformación
    inserte la descripción de la imagen aquí

    Presta atención a la observación y W 4 \mathbf{W}_4W4Relación

Aunque las reglas de construcción de la matriz de Walsh no son tan obvias, todavía hay algunas reglas

Cabe señalar que los núcleos de transformación positivos y negativos de la transformación de Walsh son los mismos

Transformada de Hadamard

Esencialmente, una transformada de Walsh especialmente ordenada, por lo que los núcleos de transformación directa e inversa son los mismos

La regla de construcción de la matriz de Hadamard:

  1. 2 × 2 2\veces 22×Núcleo de transformación 2
    H 2 = [ 1 1 1 − 1 ] \mathbf{H}_2=\begin{bmatrix}1&1\\1&-1\end{bmatrix}H2=[111 1]
  2. 4 × 4 4\veces 44×4ecuación H 4 = [ H 2 H 2 H 2 − H 2 ] = [ 1 1 1 1 1 − 1 1 − 1 1 1 − 1 − 1 1 − 1 − 1 1 ] \begin{alineado}\mathbf {
    H4=[H2H2H2H2]= 1111111 1111 11111
  3. 8 × 8 8\veces 88×8ecuación H ∗ = [ H 4 H 4 H 4 − H 4 ] \mathbf{H}_*=\begin{bmatrix}\mathbf H_4&\mathbf H_4\\\mathbf H_4&-\mathbf H_4\end{bmatrix} ;
    H=[H4H4H4H4]

Mejora y restauración de imágenes

mejora de la imagen

Propósito de la mejora de la imagen:

  • Mejore el efecto visual de la imagen , mejore la claridad y facilite la observación y el análisis.
  • Mejorar las partes de interés y suprimir las partes que no son de interés
  • Facilita el procesamiento posterior por parte del hombre o la máquina .

Características de la mejora de la imagen:

  • Resalta artificialmente algunos detalles en la imagen y suprime otra parte de la señal
  • Proceso por experiencia y ensayo y error
  • No existe un estándar unificado de medición.

Los métodos de mejora de imágenes se pueden dividir en método de dominio espacial y método de dominio de frecuencia

  • El método de dominio espacial procesa
    directamente los píxeles
  • Los métodos de dominio de frecuencia operan
    en algún tipo de dominio de transformación
método de histograma
Ecualización de histograma

Principio: aplanar
el histograma gris de la imagen
inserte la descripción de la imagen aquí

El algoritmo se puede dividir en tres pasos:

  1. Calcular el histograma en escala de grises de una imagen
  2. Calcular probabilidad acumulada
  3. Determinar la relación de mapeo
  4. Recorra toda la imagen píxel por píxel y transforme según la relación de mapeo

Vamos a entender más a través de ejemplos:

  1. El histograma de una imagen es el siguiente
    inserte la descripción de la imagen aquí

  2. Calcule la probabilidad acumulada de cada nivel de gris
    inserte la descripción de la imagen aquí

  3. Determinar la relación de mapeo
    inserte la descripción de la imagen aquí

    Aquí hay una explicación de 3 3 en la quinta fila y tercera columna de la siguiente tabla3 cálculo, la misma razón para otros

    (1) 0,44 × 7 = 3,08 0,44\veces 7=3,080.44×7=3.08 , donde 7 es el nivel de gris de la imagen8 88 menos1 11L−1 L-1L1
    (2)3.08 3.083.08 seredondeaa3 33 , lo que significa que los píxeles con escala de grises de 1 en la imagen original se cambian a píxeles con escala de grises de 3

  4. Recorra toda la imagen píxel por píxel y realice transformaciones de acuerdo con la relación de mapeo
    Debido a que la imagen original no se proporciona en el título, este paso no se puede realizar. El cálculo de este paso es engorroso y no se probará en el examen. Solo necesita saber cómo encontrar la relación de mapeo,
    pero puede encontrar el histograma transformado:

    Imagen en escala de grises después de la transformación 1 3 5 6 7
    El número de píxeles en el nivel de gris transformado 790 1023 850 985 448
    Histograma de la imagen transformada 0.19 0.25 0.21 0.24 0.11
    Debido a la operación de redondeo y redondeo, el resultado no es que las distribuciones de probabilidad de cada nivel de gris sean iguales, pero la diferencia no es grande, aproximadamente igual

ventaja:

  • Puede mejorar efectivamente el contraste y la claridad de la imagen.

defecto:

  • No se utiliza la información de ubicación espacial de los píxeles.
Especificación de histograma

La especificación del histograma recibe un histograma de destino, lo que debe hacer es encontrar la relación de mapeo del histograma original al histograma de destino

La diferencia entre la especificación del histograma y la ecualización del histograma es que
la ecualización del histograma ha determinado el histograma objetivo (un histograma plano)
y el histograma objetivo de la especificación del histograma viene dado por el título, que puede ser cualquier histograma.

La ecualización del histograma se puede considerar como una especificación especial del histograma.

El algoritmo específico no se describirá en detalle, pero usted mismo puede calcular los siguientes ejemplos:
inserte la descripción de la imagen aquí

  1. 0.19 0.190,19 y0,15 0,150.15 es el más cercano, entonces0 → 3 0\rightarrow 303
  2. 0,44 0,440,44 y0,35 0,350.35 es lo más cercano, entonces1 → 4 1\rightarrow 414
suavizado de imagen

El propósito del suavizado de imágenes: eliminar o atenuar el ruido y los falsos contornos de la imagen

Método de matriz de plantilla (máscara)

La plantilla matriz generalmente tiene las siguientes reglas:
M = 1 ∑ i = 1 9 mi [ m 1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 ] \mathbf M=\frac{1}{\sum_ {i =1}^9m_i}\begin{bmatriz}m_1&m_2&m_3\\m_4&m_5&m_6\\m_7&m_8&m_9\end{bmatriz}METRO=yo = 19metroyo1 metro1metro4metro7metro2metro5metro8metro3metro6metro9

Deslícese por la imagen a través de la matriz de la plantilla, preste atención para hacer coincidir el centro de la plantilla con el píxel correspondiente
, luego calcule la suma ponderada y asigne el resultado al píxel correspondiente al centro de la plantilla

El método de matriz de máscara tiene los siguientes métodos:

  • Promedio del vecindario
    • 4 44 promedio de vecindario
      M = 1 4 [ 0 1 0 1 0 1 0 1 0 ] \mathbf M=\frac{1}{4}\begin{bmatrix}0&1&0\\1&0&1\\0&1&0\end{bmatrix}METRO=41 010101010
    • 8 88 promedio de vecindario
      M = 1 8 [ 1 1 1 1 0 1 1 1 1 ] \mathbf M=\frac{1}{8}\begin{bmatrix}1&1&1\\1&0&1\\1&1&1\end{bmatrix}METRO=81 111101111
  • método de promedio ponderado
    • M = 1 5 [ 0 1 0 1 1 1 0 1 0 ] \mathbf M=\frac{1}{5}\begin{bmatrix}0&1&0\\1&1&1\\0&1&0\end{bmatrix};METRO=51 010111010
    • M = 1 9 [ 1 1 1 1 1 1 1 1 ] \mathbf M=\frac{1}{9}\begin{bmatrix}1&1&1\\1&1&1\\1&1&1\end{bmatrix};METRO=91 111111111
    • M = 1 16 [ 1 2 1 2 4 2 1 2 1 ] \mathbf M=\frac{1}{16}\begin{bmatrix}1&2&1\\2&4&2\\1&2&1\end{bmatrix}METRO=dieciséis1 121242121
Método de promedio de imágenes múltiples (fotogramas)

El método de promediado de múltiples imágenes consiste en recolectar repetidamente varias imágenes del mismo objeto y luego promediar estas imágenes para reducir el ruido.

Este método es adecuado para objetos estacionarios.

filtro de paso bajo

Este método es equivalente al método de matriz de plantilla.

Las señales con cambios bruscos, como ruido y bordes, se distribuyen en componentes de alta frecuencia.
El uso de un filtro de paso bajo puede filtrar algunos componentes de alta frecuencia hasta cierto punto, para lograr el efecto de reducción de ruido, pero al mismo tiempo. el tiempo filtra alguna información perimetral

filtro mediano

Principio: reemplazar el promedio local con la mediana local

Ventanas comunes para el filtrado de medianas:

  • Lineal
    inserte la descripción de la imagen aquí

  • cuadrado
    inserte la descripción de la imagen aquí

  • cruz
    inserte la descripción de la imagen aquí

  • diamante
    inserte la descripción de la imagen aquí

ventaja:

  • Tiene un buen efecto de supresión en el pulso de interferencia y el ruido puntual.
  • Buen agarre en los bordes
nitidez de imagen

Propósito de afilado: para fortalecer el contorno del objetivo

Por lo general, la imagen se suaviza primero y luego se agudiza , porque es posible que se pierda parte de la información de los bordes durante el proceso de suavizado, y la nitidez es para mejorar los bordes. El suavizado de imágenes y luego la nitidez pueden eliminar el ruido de la imagen

Nitidez de señal 1D:
inserte la descripción de la imagen aquí

Siempre que comprenda el enfoque unidimensional, será mucho más fácil comprender el enfoque bidimensional

Método de afilado de Laplace (método diferencial de segundo orden)

Fórmula de nitidez:
g ( x , y ) = f ( x , y ) − α ∇ 2 fg(x,y)=f(x,y)-\alpha\nabla^2 fg ( x ,y )=f ( x ,y )α 2f donde
:

  • g ( x , y ) g(x,y)g ( x ,y ) es la imagen nítida
  • f ( x , y ) f(x,y)f ( x ,y ) es la imagen original
  • ∇ 2f \nabla^2f2 ff ( x , y ) f(x,y)f ( x ,y ) diferencial de segundo orden

La plantilla de afilado de Laplace se puede deducir de la fórmula:

  • 4 matriz libre
    M = [ 0 − α 0 − α 1 + 4 α − α 0 − α 0 ] \mathbf{M}=\begin{bmatrix}0&-\alpha&0\\-\alpha&1+4\alpha&-\; alfa\\0&-\alfa&0\end{bmatriz}METRO= 0un0un1+4 un- un0un0
  • 8 matriz libre
    M = [ − α − α − α − α 1 + 8 α − α − α − α − α ] \mathbf{M}=\begin{bmatrix}-\alpha&-\alpha&-\alpha\\; -\alfa&1+8\alfa&-\alfa\\-\alfa&-\alfa&-\alfa\end{bmatriz}METRO= unun- unun1+8 un- ununun- un
  • otras plantillas
    inserte la descripción de la imagen aquí

Se puede ver en la plantilla anterior que las características de la plantilla de afilado de Laplace son: la suma
de todos los elementos en la matriz es 1

Cabe señalar que el movimiento en la plantilla (3x3) parte de la segunda fila y segunda columna de la imagen, no de la primera fila y primera columna. Porque los bordes alrededor de la imagen generalmente no se procesan

Método de nitidez del filtro de paso alto

Como se mencionó anteriormente, la información de borde generalmente se encuentra en el segmento de alta frecuencia, por lo que lo que queda después de que la imagen pasa a través del filtro de paso alto es la información de borde.

Los filtros de paso alto comunes son:

  • Filtro Butterworth
  • filtro de paso alto ideal
filtrado homomórfico

Una imagen f ( x , y ) f(x,y)f ( x ,y ) se puede descomponer en:

  • Cantidad incidente i ( x , y ) i(x,y)yo ( x ,y )
    La componente incidente es la luz incidente, su cambio es pequeño y relativamente uniforme, y ocupa principalmente componentes de baja frecuencia
    como la luz solar.
  • Componente de reflexión r ( x , y ) r(x,y)r ( x ,y )
    El componente de reflexión es la luz reflejada, que está determinada por la naturaleza del objeto y cambia mucho, ocupando el componente de alta frecuencia.Por ejemplo
    , la luz reflejada por el objeto iluminado por la luz solar contiene la información del contorno del borde del objeto y cambia mucho

La idea del filtrado homomórfico es: comprimir i ( x , y ) i(x,y)yo ( x ,y ) , mejorador ( x , y ) r(x,y)r ( x ,y )

restauración de imagen

El propósito de la restauración de imágenes: eliminar o aliviar la degradación de la calidad de la imagen o la degradación causada en el proceso de adquisición y transmisión de imágenes , y restaurar la apariencia original de la imagen.

  • fenómeno de degradación
    • Se manifiesta como: desenfoque, distorsión, ruido, etc.
    • Causas
      Ruido del sensor, cámara desenfocada, movimiento relativo entre el objeto y el equipo de la cámara, turbulencia atmosférica aleatoria, diferencia de fase del sistema óptico, dispersión de la fuente de luz o los rayos de la imagen, etc.

La degradación de la imagen se puede resumir en los siguientes modelos:

  • Sin modelo de ruido
    inserte la descripción de la imagen aquí

    g ( x , y ) = f ( x , y ) ∗ h ( x , y ) g(x,y)=f(x,y)*h(x,y)g ( x ,y )=f ( x ,y )h ( x ,y )

  • Considere el modelo de ruido
    inserte la descripción de la imagen aquí

    g ( x , y ) = f ( x , y ) ∗ h (
    x , y ) + n ( x , y ) g(x,y)=f(x,y)*h(x,y) +n(x,y)g ( x ,y )=f ( x ,y )h ( x ,y )+n ( x ,y )
    长域公式
    G ( tu , v ) = F ( tu , v ) H ( tu , v ) + N ( tu , v ) G(u,v)=F(u,v)H(u,v) +N(u,v)G ( ,v )=F ( ,v ) H ( tu ,v )+N ( ,v )

El principio de la restauración de imágenes:
imagen degradada conocida g ( x , y ) g(x,y)g ( x ,y ) , obtenerh ( x , y ) h(x,y)h ( x ,y) n ( x , y ) n(x,y) n ( x ,y ) , y luego encuentra la imagen originalf ( x , y ) f(x,y)f ( x ,y ) estimaf ^ ( x , y ) \widehat{f}(x,y)F ( X ,y )

Los métodos se pueden dividir en:

  • recuperación sin restricciones
  • método de filtrado inverso
  • Recuperación restringida
recuperación sin restricciones

Del modelo de degradación g = f ∗ h + ng=f*h+ngramo=Fh+n , se puede ver
que el ruidon = g − f ∗ hn=gf*hnorte=gramoFh , dondeg , f , hg,f,hg ,f ,h Conocido

El principio de la recuperación sin restricciones es encontrar la f ^ \widehat f estimadaF Sea
ruido ∣ ∣ n ∣ ∣ 2 = ∣ ∣ g − f ^ ∗ h ∣ ∣ 2 ||n||^2=||g-\widehat f*h||^2∣∣ norte 2=∣∣ gramoF h 2 mínimo

método de filtrado inverso

Del modelo de degradación en el dominio de la frecuencia G = F ⋅ H + NG=F\cdot H+NGRAMO=FH+N,可知
GH = F + NH \frac{G}{H}=F+\frac{N}{H}Hg=F+Hnorte


F ^ ≈ GH = F + NH \widehat F\approx \frac{G}{H}=F+\frac{N}{H}F Hg=F+Hnorte

Recuperación restringida

levemente

detección de bordes

Clasificación de los bordes:

  • pisado
    inserte la descripción de la imagen aquí

  • forma del techo
    inserte la descripción de la imagen aquí

La idea básica de la detección de bordes:
inserte la descripción de la imagen aquí

De la figura, el borde es:

  • puntos extremos de la primera derivada
  • 0 punto de valor de la segunda derivada

Por lo tanto, para obtener información de borde, es necesario diferenciar la imagen

Los pasos básicos de la detección de bordes:
inserte la descripción de la imagen aquí

  • El filtrado
    es un filtro de paso bajo. Debido a que la derivada es sensible al ruido, primero es necesario filtrar el ruido.
  • La mejora
    perderá parte de la información del borde durante el filtrado, y el borde debe mejorarse
  • Hay muchos puntos en la
    imagen de detección con magnitudes de gradiente relativamente grandes, y estos puntos no son todos bordes en un campo de aplicación específico, por lo que se debe usar algún método para determinar qué puntos son puntos de borde.

Método del operador de la primera derivada

método de gradiente ortogonal

Principio; calcule las derivadas de primer orden en las direcciones horizontal y vertical, luego sintetice el gradiente y luego use el método de umbral de amplitud para binarizar el gradiente, y la imagen obtenida es un mapa de bordes

Plantilla de degradado:

  • Sea
    W h = [ 0 0 0 − 1 1 0 0 0 0 ] \mathbf W_h=\begin{bmatrix}0&0&0\\-1&1&0\\0&0&0\end{bmatrix};Wh= 010010000
  • Indicador
    W v = [ 0 − 1 0 0 1 0 0 0 0 ] \mathbf W_v=\begin{bmatrix}0&-1&0\\0&1&0\\0&0&0\end{bmatrix};Wv= 000110000

Obtenga las derivadas horizontales y verticales:
G h = F ∗ W h G v = F ∗ W v \begin{aligned}\mathbf G_h=\mathbf F*\mathbf W_h\\ \mathbf G_v=\mathbf F*\mathbf W_v \ final{alineado}GRAMOh=FWhGRAMOv=FWv

Gradiente sintético:

  • GRAMO = GRAMO h 2 + GRAMO v 2 (1) \mathbf G=\sqrt{\mathbf G_h^2+\mathbf G_v^2}\tag{1}GRAMO=GRAMOh2+GRAMOv2 ( 1 )
  • GRAMO = ∣ GRAMO h ∣ + ∣ GRAMO v ∣ (2) \mathbf G=|\mathbf G_h|+|\mathbf G_v|\tag{2}GRAMO=solh+solv( 2 )
  • GRAMO = max ⁡ { ∣ GRAMO h ∣ + ∣ GRAMO v ∣ } (3) \mathbf G=\max{\{|\mathbf G_h|+|\mathbf G_v|\}}\tag{3}GRAMO=máximo{ Gh+solv}( 3 )

Binarización del método de umbral de amplitud:
B ( m , n ) = { 1 , G ( m , n ) ≥ b 0 , else \mathbf B(m,n)=\begin{cases}1,&G(m,n) \geq b\\0,&\text{otro}\end{casos}segundo ( metro ,norte )={ 1 ,0 ,G ( metro ,norte )bmás

Aquí hay un ejemplo del método de gradiente ortogonal:
inserte la descripción de la imagen aquí

Método del operador de gradiente de Roberts

El método del operador de gradiente de Roberts es similar al método de gradiente ortogonal, excepto que las derivadas direccionales de la esquina superior izquierda y la esquina superior derecha se calculan por separado.

Plantilla para el método del operador de gradiente de Roberts:

  • Indique W
    h = [ − 1 0 0 0 1 0 0 0 0 ] \mathbf W_h=\begin{bmatrix}-1&0&0\\0&1&0\\0&0&0\end{bmatrix};Wh= 100010000
  • Entonces
    W v = [ 0 0 − 1 0 1 0 0 0 0 ] \mathbf W_v=\begin{bmatrix}0&0&-1\\0&1&0\\0&0&0\end{bmatrix};Wv= 000010100

El siguiente es un ejemplo de detección de operador de Roberts:
inserte la descripción de la imagen aquí

Método de operador de gradiente suave (método de diferencia de medias)

La diferencia entre el método de diferencia promedio y el método de gradiente ortogonal es:
el método de diferencia promedio primero calcula el promedio y luego calcula la derivada , y hay un proceso de promedio adicional, que puede suprimir el ruido hasta cierto punto.

Método de operador de gradiente de Prewitt (método de diferencia promedio)

Plantilla para el método de operador de gradiente de Prewitt:

  • Sea
    W h = 1 3 [ − 1 0 1 − 1 0 1 − 1 0 1 ] \mathbf W_h=\frac{1}{3}\begin{bmatrix}-1&0&1\\-1&0&1\\-1&0&1\end{ bmatriz}Wh=31 11 1000111
  • Forma
    W v = 1 3 [ − 1 − 1 − 1 0 0 0 1 1 1 ] \mathbf W_v=\frac{1}{3}\begin{bmatrix}-1&-1&-1\\0&0&0\\1&1&1\ final{bmatriz}Wv=31 101101101
Método del operador de Sobel (método de diferencia de promedio ponderado)

Plantilla del método del operador Sobel:

  • Sea
    W h = 1 4 [ − 1 0 1 − 2 0 2 − 1 0 1 ] \mathbf W_h=\frac{1}{4}\begin{bmatrix}-1&0&1\\-2&0&2\\-1&0&1\end{ bmatriz}Wh=41 12 1000121
  • La función
    W v = 1 4 [ − 1 − 2 − 1 0 0 0 1 2 1 ] \mathbf W_v=\frac{1}{4}\begin{bmatrix}-1&-2&-1\\0&0&0\\1&2&1 \ end{bmatriz}Wv=41 101202101

Como se mencionó anteriormente, la reducción de ruido también perderá algo de información de borde al mismo tiempo, pero debido al efecto de ponderación del método del operador sobel, el borde obtenido por él es más claro que el operador prewitt.

Estos son ejemplos de detección de prewitt y detección de sobel:
inserte la descripción de la imagen aquí

método de gradiente direccional

El método de gradiente de dirección puede obtener la dirección del borde mientras detecta el borde

El principio es:
encuentre la derivada direccional de la imagen en diferentes direcciones, tome la dirección con el mayor valor de módulo como la dirección del borde, y este valor es la fuerza del borde.

En general, se calculan las derivadas direccionales en ocho direcciones y la plantilla es la siguiente:
inserte la descripción de la imagen aquí

Aquí hay un ejemplo del método de gradiente direccional:
inserte la descripción de la imagen aquí

operador astuto

Pasos astutos del operador:

  1. Aplique filtrado gaussiano para suavizar la imagen con el objetivo de eliminar el ruido

  2. Calcule el gradiente (primera derivada) de la imagen
    usando lo siguiente para verificar la imagen original F \mathbf FF realiza una convolución para obtener el gradiente horizontalG h \mathbf G_hGRAMOh, gradiente vertical G v \mathbf G_vGRAMOv

    • Sea
      W h = 1 2 [ − 1 1 − 1 1 ] \mathbf W_h=\frac{1}{2}\begin{bmatrix}-1&1\\-1&1\end{bmatrix}Wh=21[1 111]
      GRAMO h = F ∗ W h \mathbf G_h=\mathbf F*\mathbf W_hGRAMOh=FWh
    • Forma
      W v = 1 2 [ − 1 − 1 1 1 ] \mathbf W_v=\frac{1}{2}\begin{bmatrix}-1&-1\\1&1\end{bmatrix}Wv=21[1111]
      GRAMO v = F ∗ W v \mathbf G_v=\mathbf F*\mathbf W_vGRAMOv=FWv

    La matriz del módulo de gradiente se obtiene mediante la siguiente fórmula:
    G = G h 2 + G v 2 \mathbf G=\sqrt{\mathbf G_h^2+\mathbf G_v^2}GRAMO=GRAMOh2+GRAMOv2
    La matriz del argumento de gradiente (dirección) se obtiene mediante la siguiente fórmula:
    θ = arctan ⁡ G v G h \mathbf \theta=\arctan\frac{\mathbf G_v}{\mathbf G_h}i=arcánGRAMOhGRAMOv

  3. Aplicación de supresión no máxima (NMS) para eliminar la detección falsa de borde

    1. Discretizar la dirección del gradiente en 8 direcciones. Las 8
      direcciones son 0 , 45 , 90 , 135 , 180 , 225 , 270 , 315 0,45,90,135,180,225,270,3150 ,45 ,90 ,135 ,180 ,225 ,270 ,315 grados
      El método es ver cuál de los 8 valores está más cerca de la dirección del degradado y asignar el valor a la dirección del degradado.
      Por ejemplo, si la dirección del degradado de un píxel es 125,122 grados, asígnelo a 135 grados.
    2. Compare este píxel con los píxeles en la dirección positiva y negativa de su dirección de gradiente
    3. Si el módulo de gradiente de este píxel es el más grande, manténgalo; de lo contrario, configúrelo en 0
  4. Aplique el método de umbral doble para detectar y conectar los límites.
    Establezca dos umbrales (uno grande y otro pequeño) para binarizar el mapa de degradado para obtener un mapa de borde de umbral alto y un mapa de borde de umbral bajo. El mapa de borde de umbral alto es relativamente intermitente. Buscando el
    borde de umbral bajo El vecindario 8 del gráfico para llenar los puntos de corte del gráfico de borde de umbral alto para que sea continuo

El siguiente es un ejemplo del uso del operador Canny para encontrar el borde:
inserte la descripción de la imagen aquí

Método del operador de la segunda derivada

Como su nombre lo indica, el método del operador de la derivada de segundo orden consiste en utilizar el punto donde la derivada de segundo orden de la imagen es 0 para obtener información sobre los bordes. Tenga en cuenta que no todos los
puntos con un valor de derivada de segundo orden de 0 son puntos de borde .

método laplaciano

Este método se mencionó cuando se habló de afilar, si lo olvidó, haga clic en el portal

ventaja:

  • Invariancia isotrópica , lineal y única
  • Buen efecto de detección en puntos aislados y segmentos de línea.

defecto:

  • Sensible al ruido , tiene un doble efecto de refuerzo sobre el ruido, porque deriva dos veces
  • No se puede detectar la dirección del borde, lo que a menudo resulta en bordes de doble píxel

Aquí hay un ejemplo de cómo encontrar un gráfico de borde con el Laplaciano:
inserte la descripción de la imagen aquí

método de operador LoG

El principio del método del operador LoG (Laplaciano de un Gaussiano):
primero use el operador Gaussiano (filtro de paso bajo) para suavizar la imagen (reducción de ruido), y luego use el operador Laplaciano para detectar el borde, también conocido
como Marr operador

El siguiente es un ejemplo de cómo encontrar un mapa de borde por el operador LoG:
inserte la descripción de la imagen aquí

El siguiente es un ejemplo de búsqueda de aristas para todos los operadores mencionados anteriormente (excepto canny):
inserte la descripción de la imagen aquí

Segmentación de imagen

Definición de segmentación de imágenes :
dividir la imagen (conjunto) RRR se divide envacíos(subregiones) queno se superponen entre síR 1 , R 2 , ⋯ , R n R_1,R_2,\cdots,R_n R1,R2,,Rn
R yo , yo = 1 , 2 , ⋯ , norte R_i,\ yo =1,2,\cdots,nRyo, i=1 ,2 ,,n esuna región conexa

El área conectada es un área en la que los valores de gris de los píxeles son similares y la conectividad de los píxeles de referencia es

El propósito de la segmentación de imágenes :

  • Divide la imagen en varios subconjuntos de acuerdo con ciertas reglas.
  • Localiza la posición del objeto de interés en la imagen

Segmentación de imágenes basada en características :

  • escala de grises o color
    inserte la descripción de la imagen aquí

  • Perímetro
    inserte la descripción de la imagen aquí

  • textura
    inserte la descripción de la imagen aquí

  • Semántica
    Como se muestra en la figura siguiente, la semántica basada en automóviles, árboles, carreteras, etc.
    inserte la descripción de la imagen aquí

La segmentación de imágenes se basa en suposiciones :

  • Suposición de similitud
    , las características de cierta parte del objeto dentro de la región son similares o iguales
  • Suposición de discontinuidad
    , grandes diferencias en características entre partes de diferentes objetos entre regiones

La idea básica de la segmentación de imágenes :

  • De lo simple a lo difícil, segmentación nivel por nivel : primero separe el objetivo principal del todo y considere los detalles
  • Controle el fondo, reduzca la complejidad
  • Concéntrese en el objeto de interés para reducir la interferencia de componentes irrelevantes

La siguiente es una combinación de reconocimiento de matrículas para comprender las ideas básicas de la segmentación de imágenes:

  1. Extraer contorno
    Obtenga la información de contorno de la imagen, lo que ayuda a separar el objetivo principal del conjunto
  2. Ubicación de la matrícula
    Localice la posición del objetivo principal en la imagen
  3. Reconocimiento de matrículas
    Foco en objetivos primarios

Alcance de la investigación de la segmentación de imágenes :

  • algoritmo de segmentación
  • Métodos para evaluar algoritmos de segmentación

Problemas en la segmentación de imágenes :

  • No existe un método universal, se requieren diferentes algoritmos para resolver diferentes problemas
  • Lejos de alcanzar el efecto de segmentación del sistema visual humano

El algoritmo principal de segmentación de imágenes :

  • Algoritmo de segmentación basado en umbral
  • Algoritmo de segmentación basado en borde
  • Algoritmo de segmentación basado en regiones
  • Algoritmo de segmentación basado en morfología matemática

Algoritmo de segmentación basado en umbral

El principio del algoritmo de segmentación basado en el umbral:
use la diferencia entre el fondo y el valor de gris objetivo para seleccionar uno adecuado para separarlo

ventaja:

  • sencillo y rápido
  • El límite de una región cerrada y conexa siempre se puede obtener

defecto:

  • Solo apto para situaciones en las que hay un fuerte contraste entre el objetivo y el fondo.
  • Solo aplicable a fondos y objetos con un solo valor de gris
método de histograma

El método del histograma es aplicable al caso en que el histograma de la imagen obviamente tiene múltiples picos.
En el caso en que la imagen muestra picos dobles:
inserte la descripción de la imagen aquí

En este momento, seleccione el valor de gris TT correspondiente a la parte inferior del picoT se utiliza como umbral para separar el fondo del objetivo.
La expresión matemática es:
g ( x , y ) = { 1 , f ( x , y ) ≥ T 0 , f ( x , y ) < T g(x ,y)=\ begin{casos}1,&f(x,y)\geq T\\0,&f(x,y)<T\end{casos}g ( x ,y )={ 1 ,0 ,f ( x ,y )Tf ( x ,y )<T

La siguiente imagen muestra el caso de tres picos, y más picos son similares:
inserte la descripción de la imagen aquí

Sea
g ( X , y ) = { C 1 , F ( X , y ) ≤ T 1 C 2 , F ( X , y ) ≤ T 2 C 3 , F ( X , y ) > T 2 g( X,Y )=\begin{caso}c_1,&f(x,y)\leq T_1\\c_2,&f(x,y)\leq T_2\\c_3,&f(x,y)>T_2\end{casos} }g ( x ,y )= C1,C2,C3,f ( x ,y )T1f ( x ,y )T2f ( x ,y )>T2

defecto:

  • Debido a la influencia del ruido, la selección del valor inferior como umbral no es el valor esperado
  • La información del espacio de píxeles no se usa, solo se usa la información en escala de grises
  • Los requisitos para la imagen son más estrictos, por ejemplo, el histograma debe ser obviamente de varios picos
método de umbral óptimo

Como se mencionó anteriormente, el método de histograma elige la parte inferior del umbral ya que el umbral no es el mejor umbral,
la siguiente imagen puede reflejarse bien
inserte la descripción de la imagen aquí

El método de umbral óptimo consiste en seleccionar el nivel de gris cuya densidad de probabilidad del fondo sea igual al valor de la función de densidad de probabilidad del objetivo como umbral.

ventaja:

  • La segmentación es más precisa que el método del histograma

defecto:

  • Es difícil obtener la curva de función de densidad de probabilidad y se requiere una gran cantidad de estadísticas para obtener
método de iteración media

Pasos del método de iteración media:

  1. Elija un umbral estimado inicial TTT
    Este umbral se puede utilizar con el valor medio de gris de la imagen
  2. Utilice este umbral para dividir la imagen en dos partes R 1 R_1R1y R 2 R_2R2
  3. Calcular R 1 R_1 respectivamenteR1y R 2 R_2R2La media de μ 1 \mu_1metro1μ 2 \mu_2metro2
  4. Vuelva a seleccionar el umbral T = μ 1 + μ 2 2 T=\frac{\mu_1+\mu_2}{2}T=2metro1+ m2
  5. Repita los pasos 2 a 4 hasta que μ 1 \mu_1metro1μ 2 \mu_2metro2ya no cambia

El método de iteración media es un caso especial del método de partición óptima

Supongamos que pt ( z ) , pb ( z ) p_t(z),p_b(z)pagt( z ) ,pagsegundo( z ) son las funciones de densidad de probabilidad de las distribuciones de grises objetivo y de fondo respectivamente,θ \thetaθ es la relación entre el píxel objetivo y todo el píxel de la imagen,
luego la función de densidad de probabilidad de la distribución de la imagen esp ( z ) = θ pt ( z ) + ( 1 − θ ) pb ( z ) p(z)=\ theta p_t(z)+ (1-\theta) p_b(z)pag ( z )=θ pagst( z )+( 1yo ) pagsegundo( z )
pt ( z ) , pb ( z ) p_t(z),p_b(z)pagt( z ) ,pagsegundo( z ) es una función de distribución normal, la media esμ 1 , μ 2 \mu_1,\mu_2metro1,metro2, la varianza es σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2pag12,pag22
pt ( z ) = p_t(z)=pagt( z )=

método de varianza entre clases

El principio del método de varianza entre clases:
buscando un umbral TTT hace que el resultado de la segmentación seaR 1 , R 2 R_1,R_2R1,R2Satisfacer la varianza mínima dentro de la clase de valor gris y la varianza máxima entre clases

La siguiente es una comparación de métodos basados ​​en la segmentación de umbral:
inserte la descripción de la imagen aquí

Segmentación basada en regiones

método de crecimiento de la región

Principio: combinar píxeles similares para formar un área segmentada
inserte la descripción de la imagen aquí

  1. A partir de un "píxel semilla", compare la similitud de sus píxeles vecinos y, si son similares, agregue píxeles similares al área de crecimiento
  2. Repita los pasos anteriores hasta que no se agreguen píxeles al área de crecimiento

Según diferentes criterios de similitud, se puede dividir en:

  • Método de crecimiento simple , píxel + píxel
    Compare el valor de gris del punto de crecimiento (punto en el área de crecimiento) con el punto en su vecindad , si la diferencia entre ellos es menor que un umbral determinado, agregue el punto de vecindad al área de crecimiento
    es decir∣ F ( metro , norte ) − F ( s , t ) ∣ < T |f(m,n)-f(s,t)|<Tf ( metro ,norte )f ( s ,t ) <T其中
    f ( s , t ) f(s,t)f ( s ,t ) es el valor gris del punto de crecimiento
    f ( m , n ) f(m,n)f ( metro ,n ) es el valor de gris del punto de vecindad
    TTT es una fuerte dependencia del umbral
    en el punto de semilla
  • Método de crecimiento centroide , región + píxel Compare el valor de gris promedio de todos los puntos
    en la región en crecimiento con el valor de gris de los puntos vecinos , si su diferencia es menor que un cierto umbral, luego agregue los puntos vecinos a la región en crecimiento, es decir, f ( metro , norte ) − F ( s , t ) ‾ ∣ < T |f(m,n)-\overline{f(s,t)}|<T
    f ( metro ,norte )f ( s ,t )<T donde
    f ( s , t ) ‾ \overline{f(s,t)}f ( s ,t )es el valor de gris promedio de todos los puntos en el área de crecimiento
    f ( m , n ) f(m,n)f ( metro ,n ) es el valor de gris TTdel punto de vecindad
    T es el umbral
    para reducir la dependencia del punto semilla
  • Método de crecimiento mixto , área + área
    Compare los valores de gris promedio de todos los puntos en las dos áreas, y si su diferencia es menor que un cierto umbral, entonces combínelos, es decir,
    f ‾ 1 − f ‾ 2 ∣ < T |\overline f_1- \overline{f}_2|<TF1F2<T donde
    f 1 ‾ \overline{f_1}F1es el valor de gris promedio f ‾ 2 \overline f_2 de todos los puntos en la primera área de crecimiento
    F2es el valor de gris promedio TT de todos los puntos en la segunda área de crecimiento
    T es el umbral
    para mejorar la anti-interferencia

ventaja:

  • calculo sencillo

defecto:

  • Se requiere interacción manual para obtener puntos de semilla, y cada área segmentada debe implantarse con un punto de semilla
  • susceptible al ruido

El siguiente es un ejemplo de demostración del método de crecimiento de regiones:
inserte la descripción de la imagen aquí

dividir-fusionar

Principio: primero descomponer la imagen en diferentes regiones y luego fusionarlas según la similitud
inserte la descripción de la imagen aquí

  1. Determine el criterio de medición de similitud regional, es decir, el criterio de dividir y combinar
    Puede elegir el
    error cuadrático medio EA = 1 NA ∑ ( m , n ) ∈ A [ f ( m , n ) − μ A ] 2 μ A = 1 NA ∑ ( metro , norte ) ∈ A f ( metro , norte ) E_A=\frac{1}{N_A}\sum\limits_{(m,n)\in A}[f(m,n)-\mu_A ]^2\\\mu_A= \frac{1}{N_A}\sum\limits_{(m,n)\in A}f(m,n)miun=norteun1( metro , norte ) UN[ f ( metro ,norte )metroun]2metroun=norteun1( metro , norte ) UNf ( metro ,n )
    Entre ellosEA E_Amiunpara el área AAEl error cuadrático medio del valor de gris de A
    μ A \mu_Ametrounpara el área AAEl valor de gris promedio de A
    es NA N_Anorteunpara el área AAEl número de píxeles de A
  2. Cuando una región de la imagen es diferente, divídala en cuatro regiones iguales.
    Si se usa el error cuadrático medio como criterio, entonces
    cuando el error cuadrático medio de una sola región EA > a E_A>amiun>un tiempo (comoa = 1.5 a = 1.5a=1.5 ) dividir
  3. Cuando las áreas adyacentes son similares, fusionarlas.
    Si se usa el error cuadrático medio como criterio, entonces
    cuando el error cuadrático medio de dos áreas adyacentes E ( A + B ) ≤ b E_{(A+B)}\leq bmi( A + B )b (comob = 2,5 b=2,5b=2.5 ) Fusionar
  4. Repita los pasos 2 a 3 hasta que no haya división ni fusión en curso

Aquí hay una demostración del método split-merge:
inserte la descripción de la imagen aquí

Algoritmo de segmentación basado en cuenca morfológica

principio:

  • Cualquier imagen en escala de grises se puede considerar como un mapa topográfico, generalmente un mapa de gradiente
    de una imagen en escala de grises.
  1. Haga un agujero desde la posición mínima de cada área y, al mismo tiempo , inyecte agua uniformemente desde el agujero.
    Tenga en cuenta que cada área tiene un agujero.
  2. Cuando el agua en diferentes áreas esté a punto de acumularse, construya un límite alto para evitar que se acumule
    . Tenga cuidado de construir una presa alta para evitar que se acumule, de lo contrario, el límite se inundará.
  3. El límite de la última presa es la línea divisoria

Características del resultado de la segmentación:

  • Cada región está cerrada, no hay intersección entre regiones.
  • El ancho del borde es un píxel

ventaja:

  • La transformación puede ubicar con precisión el borde, la operación es simple y es fácil de procesar en paralelo

defecto:

  • Es fácil producir una segmentación excesiva y producir una gran cantidad de áreas pequeñas
    porque la imagen de entrada suele ser un mapa de degradado, y el mapa de degradado es susceptible al ruido.
    Se pueden realizar las siguientes mejoras:
    • Preprocesamiento de imágenes: reducción de ruido suave
    • Agregar restricciones al dividir
    • Reprocesamiento de los resultados de la segmentación

El siguiente es un ejemplo de demostración de un algoritmo de segmentación basado en cuencas hidrográficas morfológicas:
inserte la descripción de la imagen aquí

Procesamiento Matemático Morfológico de Imágenes

El procesamiento de imágenes de morfología matemática es un nuevo método de procesamiento y análisis de imágenes. El
lenguaje que utiliza es la teoría de conjuntos
, lo que significa: sus operaciones están definidas por operaciones de conjuntos.
Las operaciones de conjuntos no se describen aquí. Mi blog tiene Acerca de la explicación de la colección, si la olvidas, puedes ir a verla tú mismo, el portal

El contenido involucrado en lo siguiente solo considera imágenes binarias

Fundamental

inserte la descripción de la imagen aquí

  • El elemento estructural es una plantilla, procesa la imagen moviéndose constantemente en la imagen y realizando operaciones establecidas, no es necesariamente un polígono regular

operaciones básicas

corrosión

La siguiente imagen se utiliza para demostrar visualmente la operación de erosión:
inserte la descripción de la imagen aquí

Se puede ver en la figura que la operación de erosión es en realidad para alinear el origen de la plantilla con el punto correspondiente en la imagen.Si todos los puntos con un valor de 1 en la plantilla tienen un valor de 1 en el punto correspondiente en la imagen, se proporciona el valor de gris del punto de alineación en la imagen. El valor de grado es 1, de lo contrario, 0 se
puede comparar con la operación AND de los conjuntos
A ⊖ BA\ominus BAB representa el elemento estructuranteBBB corroe la imagenAAA

expandir

La siguiente imagen se utiliza para demostrar visualmente la operación de erosión:
inserte la descripción de la imagen aquí

Se puede ver en la figura que la operación de expansión es en realidad para alinear el origen de la plantilla con el punto correspondiente en la imagen.Si hay un punto con un valor de 1 en la plantilla y el valor del punto correspondiente en la la imagen también es 1, se proporciona el valor de gris del punto de alineación en la imagen. El valor de grado es 1, de lo contrario, la asignación de 0 se
puede comparar con la operación OR establecida
A ⊕ BA\oplus BAB representa el elemento estructuranteBBB imagen infladaAAA

Tenga en cuenta que el resultado de la erosión y la dilatación es dar al píxel en la imagen original una posición correspondiente al origen del elemento estructurante.

operación abierta

La operación de apertura es utilizar el elemento estructural BBB a la imagenAAA se corroe primero y luego se expande, denotado comoA ∘ BA\circ BAB
A ∘ B = ( A ⊖ B ) ⊕ BA\circ B=(A\ominus B)\oplus BAB=( Unsegundo )El significado de la
operación de aperturadentro de los límitesde A, el punto más lejano que puede alcanzar el punto en B, como se muestra en la siguiente figura
inserte la descripción de la imagen aquí

El papel de la operación abierta :
suavizar el contorno y eliminar pequeños puntos discretos o picos en el límite del objeto. La operación abierta se usa a menudo para romper discontinuidades estrechas y eliminar objetos pequeños y protuberancias delgadas.
La siguiente es una demostración de la operación abierta:
inserte la descripción de la imagen aquí

cerrar operación

La operación de cierre es utilizar el elemento de estructura BBB a la imagenAAA se expande primero y luego se corroe, denotado comoA ∙ BA\bullet BAB
A ∙ B = ( A ⊕ B ) ⊖ BA\bullet B=(A\oplus B)\ominus BAB=( Unsegundo )El significado de la
operación cerradafuera del límitede A, el punto más lejano que puede alcanzar el punto en B, como se muestra en la siguiente figura
inserte la descripción de la imagen aquí

La función de la operación de cierre :
llenar pequeños agujeros en el objeto, llenar pequeños cortes en la línea de contorno y conectar los espacios largos y delgados entre dos objetos
La siguiente es una demostración de la operación de cierre:
inserte la descripción de la imagen aquí

golpear perder transformar

El concepto de éxito y error :

  • 击中
    AAA yBBB es dos conjuntos, cuandoA ∩ B ≠ ∅ A\cap B\neq \varnothingAB= se llamaBBB golpeaAAA
  • señorita
    AAA yBBB es dos conjuntos, cuandoA ∩ B = ∅ A\cap B= \varnothingAB= se llamaBBB extrañaa AAA

Transformación Hit-Miss (HMT):
definida de la siguiente manera:
A ⊛ B = ( A ⊖ B 1 ) ∩ ( A c ⊖ B 2 ) A\circledast B=(A\ominus B_1)\cap (A^c\ ominus B_2 )AB=( UnB1)( UnCB2)
Entre ellosAAA es la imagen;B 1 , B 2 B_1,B_2B1,B2para elemento estructural B 1 B_1B1Para la parte de golpe requerida, B 2 B_2B2Para la parte de no golpear (no importa si no entiendes, hay ejemplos a continuación); A c A^cAc paraAAEl complemento de A (invertir cada elemento)
Aquí debemos prestar atención aA c A^cAc , como se muestra en la siguiente figura
inserte la descripción de la imagen aquí

Función de transformación hit—no hit: (Si no quiere entender el motivo, simplemente recuerde la función directamente, no necesita recordar la fórmula)
Localice el elemento estructural BBB en la imagenAAPara la posición en A , use la siguiente fórmula:
A ⊛ B = ( A ⊖ B ) ∩ ( A c ⊖ B c ) A\circledast B=(A\ominus B)\cap (A^c\ominus B^ c )AB=( Unsegundo )( UnCBc )
Note queA c , B c A^c,B^cAc ,BHay infinitos 1 fuera del límite de c , pero para expresar convenientemente el proceso de operación de corrosión, B c B^cBc solo mostrará un píxel fuera del
marco
inserte la descripción de la imagen aquí

Para explicar la razón, aquí se introducen los conceptos de primer plano y fondo.

  • Primer plano: el elemento que "nos importa", 1 en una imagen binaria
  • Fondo: Elementos que "no nos importan", 0 en imagen binaria

La esencia del resultado de la operación de corrosión es obtener el conjunto de orígenes que coinciden con los elementos estructurales (primer plano) en la imagen,
por lo que A ⊖ BA\ominus BAB está solo en la imagenAAA encontrado conBBEl primer plano de B coincide solo con una serie de posiciones, pero el fondo no necesariamente coincide,
por lo que el fondo debe coincidir, y hayA c ⊖ B c A^c\ominus B^cACBEn el elemento c , la operación de complemento reemplaza el primer plano y el fondo, por lo que la coincidencia es el fondo. La
intersección de la parte coincidente del primer plano y la parte coincidente del fondo esBBLa parte donde coinciden tanto el primer plano como el fondo de B , es decir,BBDonde apareció B

algunos algoritmos

Hablemos de algunos algoritmos morfológicos básicos: el objeto de procesamiento es una imagen binaria

Extracción de límites

Principio:
β ( A ) = A − ( A ⊖ B ) \beta(A)=A-(A\ominus B)segundo ( un )=A( UnB )
en el queβ ( A ) \beta(A)β ( A ) es la imagenAAMapa de límites de A , BBB es un elemento estructural

Aquí hay un ejemplo:
inserte la descripción de la imagen aquí

relleno de área

principio:

  1. X 0 X_0X0para tamaño e imagen aaUn mapa en blanco tan grande como A (los valores son todos ceros)
  2. deAA _Seleccione un punto en el área a rellenar en A , correspondiente aX 0 X_0X0Establezca el valor del punto correspondiente en 1 en
  3. Aplica la fórmula X k = ( X k − 1 ⊕ B ) ∩ A c X_k=(X_{k-1}\oplus B)\cap A^cXk=( Xk - 1segundo )AC
  4. Repita el paso 3 hasta que el área ya no crezca
  5. Finalmente X k ∪ A X_k\cup AXkA es la imagen después del relleno del área

Aquí hay un ejemplo:
inserte la descripción de la imagen aquí

análisis de textura

Antes de hablar del análisis de texturas, vamos a explicar algunos nombres:

Definición de textura

Definición de textura :
La textura es un fenómeno visual ubicuo. Podemos sentirlas fácilmente, pero es difícil definirlas con precisión. Las siguientes son dos definiciones comúnmente utilizadas. Definición 1:
De acuerdo con ciertas reglas, los elementos o Elementos base (primitivos) son dispuestas para formar un patrón repetitivo
Definición 2: si un conjunto de propiedades locales de la función de imagen es constante , cambia lentamente o es aproximadamente periódico , entonces la región correspondiente en la imagen tiene una textura constante.
A continuación se muestran algunos mapas de textura:
inserte la descripción de la imagen aquí

Características básicas de las texturas

  1. Propiedades de la región. La textura es un atributo de un área de una imagen y está íntimamente relacionado con la resolución de la imagen
  2. Repetibilidad, regularidad, direccionalidad, etc.

Definición de análisis de textura

Definición de análisis de textura El análisis de textura se refiere al proceso de procesamiento de extracción de parámetros característicos de la textura
a través de ciertas técnicas de procesamiento de imágenes , para obtener una descripción cuantitativa o cualitativa de la textura. El análisis de textura incluye: clasificación de textura, segmentación de textura, recuperación de forma a partir de textura, etc. Para: inspección de productos, análisis de imágenes médicas, procesamiento de documentos, análisis de imágenes de teledetección, etc.

Descripción de la textura La extracción de características
de la textura es el proceso de extraer características de la textura de la imagen a través de un cierto algoritmo para obtener una descripción cuantitativa de la textura. En otras palabras, es encontrar un vector que pueda describir las características de la textura, de modo que la distancia dentro de la clase de textura pueda puede reducirse mientras que la distancia entre clases puede aumentarse.

Segmentación de texturas
Divide la imagen en varias regiones inconexas según las características de la textura para determinar los límites de las diferentes texturas de la imagen

Clasificación de texturas
La clasificación de texturas consiste en clasificar correctamente imágenes de texturas desconocidas en tipos de texturas conocidas.
El siguiente es el marco de clasificación:
inserte la descripción de la imagen aquí

La siguiente imagen muestra la clasificación de texturas y la segmentación de texturas.
inserte la descripción de la imagen aquí

Síntesis de texturas
La síntesis de texturas es la síntesis de imágenes de texturas a partir de primitivas de texturas.

Métodos de análisis de textura

  • Métodos estadísticos
    Utilizan las características de distribución de niveles de gris de la textura en el espacio,
    la matriz de coocurrencia de niveles de gris y la función de autocorrelación
  • Métodos estructurales
    Utilizan las características de las primitivas organizadas en texturas
    Basados ​​en características primitivas o reglas de combinación de primitivas
  • Los métodos basados ​​en modelos
    asumen que las texturas son instancias de una clase de modelos paramétricos
    Campos aleatorios de Markov
  • Métodos de procesamiento de señales
    Utilice la periodicidad de la textura y utilice métodos de filtrado para procesar
    la transformada de Fourier, la transformada de Gabor, la transformada de ondas, etc.

matriz de co-ocurrencia de nivel de gris

Cálculo de la matriz de coocurrencia en escala de grises:
suponiendo una imagen AA en escala de grisesEl nivel de gris de A esLLL

  1. Recorra toda la imagen píxel por píxel, suponiendo que las coordenadas del punto que se está recorriendo actualmente son ( m , n ) (m,n)( m ,n ) , el valor de gris esA ( m , n ) A(m,n)un ( m ,n ) . Hay un vector de desplazamientod = ( a , b ) d=(a,b)d=( un ,b ) , las coordenadas del punto de compensación son( m + a , n + b ) (m+a,n+b)( metro+un ,norte+b ) , el valor de gris esA ( m + a , n + b ) A(m+a,n+b)un ( metro+un ,norte+b ) . Registre el valor de gris de estos dos puntos[ A ( m , n ) , A ( m + a , n + b ) ] [A(m,n),A(m+a,n+b)][ un ( metro ,n ) ,un ( metro+un ,norte+b )] ,li = A ( metro , norte ) , lj = A ( metro + a , norte + segundo ) l_i=A(m,n),l_j=A(m+a,n+b)yoyo=un ( m ,n ) ,yoj=un ( metro+un ,norte+b ) , entonces el valor de gris de estos dos puntos se puede registrar como< li , lj > <l_i,l_j><yoyo,yoj> , la razón de escribir esto es porque está ordenado, es decir,< li , lj > ≠ < lj , li > <l_i,l_j>\neq <l_j,l_i><yoyo,yoj>=<yoj,yoyo> . Después de atravesar toda la imagen, se obtendrán una serie de pares de valores de gris
  2. Cuente los resultados, asumiendo N ( li , lj ) N(l_i,l_j)norte ( lyo,yoj) es el par de valores grises< li , lj > <l_i,l_j><yoyo,yoj> el número de ocurrencias. Los resultados estadísticos se pueden escribir como un tamaño deL × LL\times LL×La matriz de L , la primerali l_iyoyolínea lj l_jyojLos elementos de la columna son N ( li , lj ) N(l_i,l_j)norte ( lyo,yoj)

La forma de la matriz de co-ocurrencia obtenida de lo anterior es la siguiente
inserte la descripción de la imagen aquí

Vector de desplazamiento d = ( a , b ) d=(a,b)d=( un ,b ) Selección:
Debe seleccionarse de acuerdo con las características de distribución periódica de la textura,
si la textura es delgada, las compensacionesa, ba, bun ,b elige el valor más pequeño

El siguiente es un ejemplo de obtención de la matriz de co-ocurrencia de niveles de gris:
el tamaño de la imagen es 5 × 5 5\times 55×5 , el nivel de gris es3 33 , vector de desplazamientod = ( 1 , 1 ) d=(1,1)d=( 1 ,1 )
inserte la descripción de la imagen aquí

Información obtenida de la matriz de co-ocurrencia de niveles de gris:

  • Elementos en la diagonal principal
    Los elementos en la diagonal principal están desplazados ddBajo la condición de d
    , el número de ocurrencias de la misma combinación de nivel de gris Dado que la textura tiene las características de que el nivel de gris es básicamente el mismo a lo largo de la dirección de la textura,
    el tamaño de los elementos en la diagonal principal ayuda a juzgarla direcciónyla informaciónde espesor
  • Otros elementos excepto la diagonal principal
    La distribución de otros elementos en relación con la diagonal principal puede representar discreción , que refleja el grosor
    de la textura. Para texturas gruesas , los valores de la matriz de coocurrencia de nivel de gris se concentran cerca de la principal diagonal
    Para una textura fina con los valores de la matriz de co-ocurrencia en escala de grises dispersos aquí y allá

Resumen de la matriz de coocurrencia de nivel de gris:

  • En comparación con el histograma, la matriz de coocurrencia de niveles de gris refleja hasta cierto punto las características de distribución espacial de cada nivel de gris en la imagen de textura.
  • Se pueden definir múltiples texturas mediante la matriz de co-ocurrencia de nivel de gris
  • Se utiliza principalmente para la clasificación de texturas, menos para la segmentación de texturas.

Hay un problema:

  • El vector de desplazamiento es un parámetro importante de la matriz de co-ocurrencia de niveles de gris, y su selección carece de un método efectivo

Percepción de alto nivel para visión artificial

visión por computador

La visión artificial es la capacidad de adquirir y procesar información simulando el mecanismo visual humano con una computadora.

Cómo se relaciona la visión por computadora con algunos vecindarios

  • Procesamiento de imágenes
    En el procesamiento de imágenes, los humanos son los mejores intérpretes En
    la visión por computadora, las computadoras son los mejores intérpretes
    La visión por computadora requiere procesamiento de imágenes
  • Gráficos por computadora Gráficos
    por computadora: use imágenes bidimensionales para mostrar descripciones tridimensionales, como algún software de visualización en 3D Visión por computadora
    : de imágenes bidimensionales a descripciones tridimensionales,
    las dos son recíprocas
  • Reconocimiento de patrones
    Se pueden aplicar muchos métodos de reconocimiento de patrones a la visión artificial.
  • Inteligencia artificial
    La visión artificial es una rama de la inteligencia artificial

Geometría + Medida + Interpretación = Visión

Algunas aplicaciones de la visión artificial:

  • predicción del comportamiento
  • seguimiento del cuerpo
  • reconstrucción 3D, etc

Teoría de la visión por computadora

Marco de computación visual Marr (Marr)

Acerca de Marr:
fundador de la visión por computadora, Marr combinó hallazgos de psicología, inteligencia artificial y neurofisiología.

Marco de computación visual de Marr:
la visión es una tarea de procesamiento de información con tres niveles

  1. Nivel 1: Teoría Computacional del Procesamiento de la Información
  2. Segundo Nivel: Algoritmos
  3. El tercer nivel: el mecanismo o hardware que implementa el algoritmo

Marr divide el proceso de devolver información de forma de una imagen en tres etapas de representación:

  1. boceto inicial
  2. mapa de 2,5 dimensiones
  3. modelo 3d
Teoría de la visión basada en la inferencia

La idea principal: solo en función de los datos de la imagen en sí, no puede proporcionar suficientes restricciones en la estructura del espacio del objeto correspondiente, es necesario agregar conocimiento previo

atención visual

En el procesamiento de información visual humana, algunos objetos destacados siempre se seleccionan rápidamente para
el procesamiento prioritario, mientras que otros objetos no destacados se ignoran o descartan.

Importancia de la investigación de la atención visual:

  • Reduzca la complejidad computacional y mejore la eficiencia del procesamiento
  • Deje que la computadora imite la selectividad y la iniciativa del ojo humano para mejorar la capacidad de filtrado de información

Clasificación y reconocimiento de imágenes

levemente

Detección de objetos en aprendizaje profundo

Introducción a la detección de objetos

La diferencia entre clasificación y detección:

  • La clasificación consiste en clasificar una imagen en una determinada categoría en función de su contenido.
  • La detección consiste en detectar la información contenida en la imagen (¿cuál es el contenido? ¿dónde? etc.)

Redes neuronales

levemente

método popular

método de dos etapas

El método de dos etapas divide la detección de objetivos en dos etapas:

  1. Generación de cajas de candidatos
    Generar una serie de cajas de candidatos
  2. Clasificación de cajas candidatas
    Realice una clasificación objetivo/no objetivo en las cajas candidatas

Los métodos comunes de dos etapas son:

  • Serie RCNN: RCNN, Fast-RCNN, Faster-RCNN
  • FPN
  • RetinaNet
  • R-FCN
  • Máscara RCNN
  • RefinarDet
método de una sola etapa

El método de una sola etapa realiza la detección de objetivos directamente en la imagen sin generar cuadros de candidatos

Los métodos comunes de una etapa son:

  • Serie YOLO
  • Serie SSD
Método de dos etapas versus método de una etapa

Método de dos etapas: alta precisión, pero
velocidad relativamente baja Método de una etapa: alta velocidad, pero precisión relativamente baja

Segmentación semántica en aprendizaje profundo

súper píxel

Un superpíxel es una colección de una serie de píxeles, estos píxeles tienen características similares, como color y textura, y la distancia es relativamente cercana. Como se muestra en la
figura a continuación, la colección de píxeles en el área dentro de la línea blanca es un superpíxel.
inserte la descripción de la imagen aquí

segmentación semántica

La segmentación semántica consiste en asignar a cada píxel de la imagen una etiqueta de categoría (como: personas, automóviles, carreteras, árboles, etc.) La
siguiente figura es un ejemplo de segmentación semántica:
inserte la descripción de la imagen aquí

La segmentación semántica solo puede juzgar categorías, pero no puede distinguir individuos.Si
un píxel en la imagen de arriba está marcado en rojo, podemos saber que pertenece a la categoría de personas, pero si dos píxeles están marcados en rojo, no podemos distinguir si los dos píxeles están marcados en rojo. son de la misma persona

segmentación de instancias

En comparación con la detección de objetivos, la detección de objetivos proporciona el cuadro de destino (cuadro delimitador), mientras que la segmentación de instancias proporciona la máscara. En
comparación con la segmentación semántica, la segmentación de instancias no necesita marcar cada píxel, solo el borde del objeto de interés . Los individuos se pueden distinguir porque cada individuo tiene un contorno de color diferente

El método Mask-CNN es un algoritmo de segmentación de instancias
Tenga en cuenta que Mask-RCNN es un algoritmo de detección de objetivos, no lo confunda

El siguiente es un diagrama esquemático de la segmentación de instancias:
inserte la descripción de la imagen aquí

segmentación panorámica

La segmentación panóptica es una combinación de segmentación de instancias y segmentación semántica, que puede distinguir tanto clases como instancias dentro de clases.
Aquí hay un ejemplo de demostración:
inserte la descripción de la imagen aquí

Aplicaciones de Deep Learning en Segmentación

método totalmente supervisado

primeras ideas nuevas

  • Método de reducción: este método es para realizar la segmentación en cada superpíxel
  • Método completamente convolucional

método U-net

Método DeepLab

Método de campo aleatorio condicional similar a RNN

método SegNet

método PSPNet

Método RefineNet

Red GAN

método débilmente supervisado

método STC

método DSRG

Métodos L-Net y P-Net

método ORMAE

Supongo que te gusta

Origin blog.csdn.net/qq_52554169/article/details/131131635
Recomendado
Clasificación