Directorio de artículos
- error corregido
- Comprensión de imágenes y revisión final de visión por computadora
-
- Tipo de pregunta y proporción de puntuación
- puntos de conocimiento
-
- introducción
- sistema visual
- Análisis de señal de imagen
- transformación de imagen
- Mejora y restauración de imágenes
- detección de bordes
- Segmentación de imagen
- Procesamiento Matemático Morfológico de Imágenes
- análisis de textura
- Percepción de alto nivel para visión artificial
- Detección de objetos en aprendizaje profundo
- Segmentación semántica en aprendizaje profundo
error corregido
- Corregido el error del barrio a la cancha, 13 junio 2023 a las 11:00 am
- Corrección de función inversa de conos y bastones, 13 de junio de 2023 a las 17:00
Comprensión de imágenes y revisión final de visión por computadora
Muchas gracias Sr. Cai por proporcionar el plan de revisión.
Se recomienda usar la computadora para revisar el catálogo, porque el terminal móvil solo puede mostrar el catálogo por debajo del tercer nivel
o usar el esquema de revisión de otros estudiantes.Si no conoce los puntos de conocimiento, puede hacer clic en este blog. para ver la introducción de los puntos de conocimiento correspondientes
Si cree que es útil para usted, no sea tacaño con Me gusta gratis en sus manos, ¡gracias!
Debido a mi capacidad limitada, es inevitable que haya errores en el texto, si lo encuentra, puede corregirlo.
Tipo de pregunta y proporción de puntuación
tipo de pregunta | Relación de puntuación |
---|---|
radio | 10 × 2 10\veces 210×2 |
llena el espacio en blanco | 10 × 2 10\veces 210×2 |
respuesta corta | 4 × 5 4\veces 54×5 |
calcular | 2 × 10 2\veces 102×10 |
conversar | 2 × 10 2\veces 102×10 |
puntos de conocimiento
introducción
forma de percepción
Cinco sentidos: vista, oído, gusto, olfato, tacto
Entre ellos, la visión es el sistema más informativo ( 60 % ∼ 90 % 60\%\sim 90\%60%∼90%)
El contenido principal del procesamiento de imágenes.
- Adquisición de información de imagen.
- almacenamiento de información de imagen
- Transmisión de información de imagen.
- Procesamiento de la información de la imagen.
- Salida de imagen y visualización
comprensión de la imagen
La comprensión de la imagen es la comprensión semántica de las imágenes.
La comprensión de imágenes es:
(1) Tomar imágenes como objetos (
2) Tomar el conocimiento como núcleo
Investigación: (1) Objetos
en imágenes (2) Interrelaciones entre objetos (3) Escenas en imágenes (4) Cómo aplicar escenas
Tres niveles de comprensión de imágenes:
- Nivel bajo: procesamiento de imágenes
- Nivel medio: análisis de imágenes
- Nivel alto: Comprensión de imágenes
El propósito
de la comprensión de imágenes es el siguiente :
- Procesar imágenes para satisfacer las necesidades visuales y psicológicas de las personas.
- Analizar y comprender objetos en imágenes.
Los componentes básicos de un sistema de comprensión de imágenes:
- El preprocesamiento es la mejora y restauración de imágenes.
- Esta imagen refleja una vez más que la comprensión de la imagen se basa en el conocimiento.
Aplicaciones
- Reconocimiento facial
- Reconocimiento y análisis de imágenes
- Conducción asistida, conducción inteligente
- Diagnóstico por Imagen Médica
- Edición de imagen, Edición de video
sistema visual
estructura basica
Anatómicamente, está formado por el globo ocular y el sistema nervioso óptico.
- globo ocular:
- Sistema refractivo
Córnea, cristalino, etc. - sistema fotosensible
retina
- Sistema refractivo
Desde la perspectiva de la estructura física: compuesta por el sistema óptico , la retina y la vía visual
- Células visuales en la retina ("siguiendo el ojo")
- Conos : diurno, percepción del color.
- Células bastón : noche, percepción del brillo.
La siguiente figura es el diagrama de la estructura física del sistema de visión:
Características del ojo humano
adaptación de brillo
La percepción del brillo del ojo humano varía con las condiciones de iluminación , por lo que la percepción del brillo del ojo humano es subjetiva.
No sé si habrás notado este fenómeno:
(1) Por la noche, cuando apagues las luces y te vayas a dormir, tus ojos estarán completamente oscuros, pero después de un tiempo, verás gradualmente los objetos circundantes con claridad. . En este momento, al ingresar repentinamente a un ambiente oscuro desde un ambiente brillante, el ojo humano es relativamente menos sensible a la percepción del brillo
(2) Será muy deslumbrante ingresar repentinamente a un ambiente brillante desde un ambiente oscuro, pero será mucho mejor Al poco tiempo
inhibición lateral
Las neuronas excitantes detrás de los dedos inhiben sus neuronas excitadas adyacentes .
Es estimular una neurona para excitarla, y luego estimular las neuronas adyacentes para excitarla, y la neurona excitada detrás tendrá un efecto inhibitorio sobre la neurona excitada antes.
El fenómeno de la inhibición lateral: (No sé por qué existe tal fenómeno)
-
fenómeno uno
-
fenómeno dos
Efecto de cinturón de Mach
Se refiere a la percepción subjetiva de la visión donde aparecen rayas ilusorias brillantes u oscuras donde cambia el brillo, como se muestra en la siguiente figura:
Los efectos de la banda Mach son causados por la supresión lateral .
La explicación del efecto de la banda de Mach es que
el sistema visual humano tiene un mecanismo para mejorar el contraste de los bordes.
campo receptivo
Se refiere a la zona de la retina donde la luz puede alterar la actividad de esta neurona
Por definición, el campo receptivo es un área en la retina.
Cuando la luz incide en esta área, las neuronas se excitarán
y la luz fuera del campo receptivo no tendrá ningún efecto sobre el disparo de la neurona.
inercia visual
La percepción de brillo del ojo humano no desaparecerá inmediatamente con la desaparición del brillo del objeto , pero hay un tiempo de transición , que es la inercia visual.
Una aplicación de la inercia visual es la proyección de películas.
visión deportiva
El tiempo de reacción es más corto cuando se aplica luz a la fóvea del ojo. Cuanto más lejos de la fóvea mayor es el tiempo de reacción
Contornos subjetivos e ilusiones espaciales
Perfil del supervisor:
Ilusión espacial:
modelo visual
Modelo de visión monocromática
El análogo más simple del modelo monocromático es un filtro de paso bajo seguido de un filtro de paso alto .
- Filtro de paso bajo: simula el sistema óptico del ojo humano
- Filtro de paso alto: refleja el efecto de la banda Mach causado por la supresión lateral
modelo de visión de color
Tres colores primarios de luz emitida: rojo, verde, azul (RGB)
Tres colores primarios de luz reflejada: cian, magenta, amarillo (CMY)
Se puede hacer cualquier otro color mezclando estos tres colores.
Análisis de señal de imagen
modelo de iluminación
- luz ambiental
luz solar - Reflexión difusa
Reflexión de superficies rugosas - reflejo del espejo reflejo
del espejo
función de brillo
Función de brillo bidimensional:
- yo = f ( x , y ) yo=f(x,y)I=f ( x ,y )
- x, yx,yx ,y es la coordenada del plano
- III es la intensidad de píxeles
Una función de brillo más general:
- yo = f ( x , y , z , λ , t ) yo=f(x,y,z,\lambda,t)I=f ( x ,y ,z ,yo ,t )
- x, y, zx,y,zx ,y ,z es la coordenada espacial
- λ \lambdaλ es la longitud de onda de la luz, con información de color
- ttt es el tiempo, que representa la imagen en movimiento
- III es la intensidad del píxel.
Propiedades de las imágenes digitales
resolución
Píxeles por unidad de longitud (pulgadas)
escala de grises
El número total de niveles de gris que contiene la imagen se denomina nivel de gris.
relación entre píxeles
proximidad
- Vecindarios (propiedades de píxeles individuales)
- 4 44 barrios
- D \ texto Dbarrio d
- 8 88 barrios
- Adyacencia (la relación entre dos píxeles)
Si un píxel está en la vecindad de otro píxel, se dice que los dos píxeles son adyacentes- 4 44 adyacentes
- D \ texto DD adyacencia
- 8 88 contiguos
Vecindario primero, adyacencia segundo
conectividad
- Conexión
Solo cuando se cumplen dos condiciones se puede llamar conexión: una es que los valores de gris sean similares ; la otra es que dos píxeles sean adyacentes- 4 44 conexiones
- 8 88 conexiones
- m \ texto mm -connect (conexión híbrida)
píxelppp ,qqq metro \texto metrom conexión siempre queuna de- Dos píxeles 4 44 adyacentes
- dos píxeles D \text DD es adyacente, pero sus4 44 barrios no se cruzan
- Adyacente
Si dos píxeles están conectados, se dice que son adyacentes a
4 , 8 , m 4,8,\text m4 ,8 ,m contiguo - ruta
p ( x 0 , y 0 ) , q ( xn , yn ) p(x_0,y_0),q(x_n,y_n)pag ( x0,y0) ,q ( xn,yn) se puede expresar como:
L ( p , q ) = ( x 0 , y 0 ) → ( x 1 , y 1 ) → ( x 2 , y 2 ) → ⋯ → ( xn , yn ) L (p,q) =(x_0,y_0)\flecha derecha(x_1,y_1)\flecha derecha(x_2,y_2)\flechaderecha\cdots\flechaderecha(x_n,y_n)L ( pag ,q )=( X0,y0)→( X1,y1)→( X2,y2)→⋯→( Xn,yn)
su punto medio de la imagen( xi , yi ) (x_i,y_i)( Xyo,yyo) punto dado( xi − 1 , yi − 1 ) (x_{i-1},y_{i-1})( Xyo − 1,yyo − 1) junto a - conectado
p , qp,qpag ,Si q tiene un camino, se llamap , qp,qpag ,q esta conectado
distancia
Hay dos píxeles p ( x , y ) , q ( s , t ) p(x,y),q(s,t)pag ( x ,y ) ,q ( s ,t )
- Distancia euclidiana
DE ( pags , q ) = ( x − s ) 2 + ( y − t ) 2 D_E(p,q)=\sqrt{(xs)^2+(yt)^2}Dmi( pag ,q )=( X−s )2+( y−t )2 - Distancia entre bloques
re 4 ( pags , q ) = ∣ x − s ∣ + ∣ y − t ∣ D_4(p,q)=|xs|+|yt|D4( pag ,q )=∣ x−s ∣+∣ y−t ∣
re 4 = 1 D_4=1D4=El píxel de 1 es el píxel( x , y ) (x,y)( X ,y ) 4 barrio - Distancia del tablero
re 8 ( pags , q ) = max { ∣ x − s ∣ , ∣ y − t ∣ } D_8(p,q)=\max{\{|xs|,|yt|\}}D8( pag ,q )=máximo{ ∣ x−s ∣ ,∣ y−t ∣ }
re 8 = 1 D_8=1D8=El píxel de 1 es el píxel( x , y ) (x,y)( X ,y ) 8 barrio
Operaciones entre píxeles
operación aritmética
Para imágenes en escala de grises , hay { + , − , × , ÷ } \{+,-,\times,\div\}{ + ,− ,× ,÷ } cuatro operaciones
operación lógica
Para imágenes binarias , hay {y, o, no} \{y, o, no\}{ con ,o ,No } tres tipos de operaciones
operación de plantilla
z = ∑ yo = 1 9 wiziz=\sum\limits_{i=1}^9w_iz_iz=yo = 1∑9wyozyo
Representación de código de cadena de límite
Hay dos tipos de códigos de cadena:
-
código de 4 cadenas
-
8 código de cadena
código de cadena original
El código de cuatro cadenas se expresa como
M 4 = 10103322 M_4=10103322METRO4=10103322
El código de cadena original tiene invariancia de traducción, pero no invariancia de rotación y unicidad.
Código de cadena normalizado
El código de cadena original con el valor más pequeño.
M4 = 01033221 M_4=01033221METRO4=01033221
Los códigos diferenciales normalizados son invariantes de traducción y únicos, pero no invariantes de rotación
código diferencial
La fórmula de cálculo del código diferencial es:
bi = ( ai − ai − 1 ) mod 4 o 8 b_i=(a_i-a_{i-1})\ \text{mod}\ 4\ \text{or}\ 8byo=( unyo−ayo − 1módulo 4 u 8 _
M4 = 33133030 M_4=33133030METRO4=33133030
Los códigos diferenciales son invariantes de traslación e invariantes de rotación, pero no únicos.
código diferencial normalizado
El código de diferencia más pequeño
M 4 = 03033133 M_4=03033133METRO4=03033133
Los códigos diferenciales normalizados tienen invariancia de traducción, invariancia de rotación y unicidad.
La representación del número de forma del límite.
El límite está representado por un código diferencial normalizado , que es la representación del número de forma del límite
Orden de forma : longitud de secuencia
Sistemas invariantes lineales y de traslación
Un sistema que satisface el teorema de homogeneidad y el teorema de superposición se llama sistema lineal
- Teorema de Homogeneidad: T [ ax ] = a T [ x ] T[ax]=aT[x]T [ una x ]=una T [ x ]
- Teorema de superposición: T [ x 1 + x 2 ] = T [ x 1 ] + T [ x 2 ] T[x_1+x_2]=T[x_1]+T[x_2]T [ x1+X2]=T [ x1]+T [ x2]
sistema invariante de traducción
- y ( yo ) = T [ x ( yo ) ] y(i)=T[x(i)]y ( yo )=T [ x ( yo )] y ( yo - metro ) = T [ x ( yo - metro ) ] y(im)=T[x(im)]y ( yo−m )=T [ x ( yo−m )]
La linealidad y la invariancia de traducción son dos propiedades independientes , las dos no están relacionadas
circunvolución
Un método útil para la convolución discreta unidimensional es la multiplicación sin acarreo , y el algoritmo específico se refiere a señales y sistemas
Método de convolución discreta bidimensional
transformación de imagen
¿Por qué hay una transformación?
- Los problemas que no se pueden resolver en el dominio del tiempo se resuelven fácilmente transformándolos en otros espacios, como el espacio en el dominio de la frecuencia de la transformada de Fourier, que es conveniente para filtrar
Transformación ortogonal
La forma normal de una transformación ortogonal es:
- 正变换
GRAMO ( tu ) = ∑ yo = 0 norte - 1 F ( X ) t ( X , tu ) , tu = 0 , 1 , ⋯ , norte - 1 G(u)=\sum\limits_{i=0} ^{N-1}f(x)t(x,u),\ u=0,1,\cdots, N-1G ( tú )=yo = 0∑norte - 1f ( x ) t ( x ,tu ) , tu=0 ,1 ,⋯,norte−1
de los cualest ( x , u ) t(x,u)t ( x ,u ) es el kernel de transformación directa - 反变换
f ( X ) = ∑ yo = 0 norte - 1 GRAMO ( tu ) h ( X , tu ) , X = 0 , 1 , ⋯ , norte - 1 f(x)=\sum\limits_{i=0} ^{N-1}G(u)h(x,u),\ x=0,1,\cdots, N-1f ( x )=yo = 0∑norte - 1G ( tu ) h ( x ,tu ) , X=0 ,1 ,⋯,norte−1
de los cualesh ( x , u ) h(x,u)h ( x ,u ) es el kernel de transformación inversa
Se llama transformación ortogonal porque:
- t ( X , 0 ) , t ( X , 1 ) , ⋯ , t ( X , norte - 1 ) t(x,0),t(x,1),\cdots,t(x,N-1)t ( x ,0 ) ,t ( x ,1 ) ,⋯,t ( x ,norte−Las funciones en 1 ) son ortogonales entre sí
- h ( 0 , tu ) , h ( 1 , tu ) , ⋯ , h ( norte - 1 , tu ) h(0,u),h(1,u),\cdots,h(N-1,u)h ( 0 ,tu ) ,h ( 1 ,tu ) ,⋯,h ( norte−1 ,Las funciones en u ) son ortogonales por pares
Cuando el núcleo de transformación directa bidimensional t ( x , y , u , v ) t(x,y,u,v)t ( x ,y ,tu ,v )满足
t ( x , y , tu , v ) = t 1 ( x , u ) t 2 ( y , v ) t(x,y,u,v)=t_1(x,u)t_2(y,v )t ( x ,y ,tu ,v )=t1( X ,tu ) t2( y ,v ) ,
se dice que la transformación ortogonal tieneseparabilidad
Un conocido:
- Imagen de entrada N × NN\times Nnorte×N matrizF \mathbf FF
- Transformar N × NN\veces Nnorte×N matrizT \mathbf TT
Representación matricial de la transformación ortogonal :
- 正变换G = TFT \mathbf G=\mathbf T\mathbf F\mathbf TGRAMO=TFT
- 逆变换F ^ = HGH \widehat{\mathbf F}=\mathbf H\mathbf G\mathbf HF
=HGH
dondeH \mathbf{H}H es la matriz de transformación inversa
cuandoH = T − 1 \mathbf{H}=\mathbf{T}^{-1}H=T− 1时,F ^ = F \widehat{\mathbf F}=\mathbf FF =F
当H ≠ T − 1 \mathbf{H}\neq\mathbf{T}^{-1}H=T− 1时,F ^ ≈ F \widehat{\mathbf F}\approx\mathbf{F}F ≈F
Transformada de Fourier
transformada de coseno discreta
La transformada de coseno discreta es una forma especial de transformada de Fourier discreta
Ventajas: la transformada de coseno discreta tiene una mejor densidad de agregación de energía en el dominio de la frecuencia que la transformada de Fourier discreta
Una aplicación: el algoritmo de compresión de imágenes que utilizan las imágenes jepg es la transformada de coseno discreta
transformada wavelet
La razón por la cual se propone la transformada wavelet:
Para solucionar el problema de que la transformada de Fourier no puede distinguir el tiempo en que aparece cada componente de frecuencia al analizar una señal no estacionaria cuya frecuencia cambia con el tiempo
De la transformada de Fourier a la transformada wavelet se ha experimentado el siguiente proceso:
Transformada de Fourier → \rightarrow→ transformada de Fourier con ventana→ \rightarrow→ Transformada wavelet
Transformada de Walsh
Ventajas: en comparación con la transformada de Fourier, la transformada de Walsh solo tiene la suma y resta de números reales pero no la multiplicación de números complejos, lo que hace que la velocidad de cálculo sea rápida y el espacio de almacenamiento sea pequeño, lo que favorece la implementación de hardware y es adecuado para procesamiento en tiempo real y operaciones de datos a gran escala Tiene un atractivo especial
Desventajas: compresión ineficiente , por lo que no tiene mucho uso práctico
Las reglas de construcción de la matriz de Walsh:
-
2 × 2 2\veces 22×Núcleo de transformación 2
W 2 = [ 1 1 1 − 1 ] \mathbf{W}_2=\begin{bmatrix}1&1\\1&-1\end{bmatrix}W2=[111− 1] -
4 × 4 4\veces 44×4 núcleos de transformación
Presta atención a la observación y W 2 \mathbf{W}_2W2Relación
-
8 × 8 8\veces 88×8 núcleos de transformación
Presta atención a la observación y W 4 \mathbf{W}_4W4Relación
Aunque las reglas de construcción de la matriz de Walsh no son tan obvias, todavía hay algunas reglas
Cabe señalar que los núcleos de transformación positivos y negativos de la transformación de Walsh son los mismos
Transformada de Hadamard
Esencialmente, una transformada de Walsh especialmente ordenada, por lo que los núcleos de transformación directa e inversa son los mismos
La regla de construcción de la matriz de Hadamard:
- 2 × 2 2\veces 22×Núcleo de transformación 2
H 2 = [ 1 1 1 − 1 ] \mathbf{H}_2=\begin{bmatrix}1&1\\1&-1\end{bmatrix}H2=[111− 1] - 4 × 4 4\veces 44×4ecuación H 4 = [ H 2 H 2 H 2 − H 2 ] = [ 1 1 1 1 1 − 1 1 − 1 1 1 − 1 − 1 1 − 1 − 1 1 ] \begin{alineado}\mathbf {
H4=[H2H2H2− H2]= 11111− 11− 111− 1− 11− 1− 11 - 8 × 8 8\veces 88×8ecuación H ∗ = [ H 4 H 4 H 4 − H 4 ] \mathbf{H}_*=\begin{bmatrix}\mathbf H_4&\mathbf H_4\\\mathbf H_4&-\mathbf H_4\end{bmatrix} ;
H∗=[H4H4H4− H4]
Mejora y restauración de imágenes
mejora de la imagen
Propósito de la mejora de la imagen:
- Mejore el efecto visual de la imagen , mejore la claridad y facilite la observación y el análisis.
- Mejorar las partes de interés y suprimir las partes que no son de interés
- Facilita el procesamiento posterior por parte del hombre o la máquina .
Características de la mejora de la imagen:
- Resalta artificialmente algunos detalles en la imagen y suprime otra parte de la señal
- Proceso por experiencia y ensayo y error
- No existe un estándar unificado de medición.
Los métodos de mejora de imágenes se pueden dividir en método de dominio espacial y método de dominio de frecuencia
- El método de dominio espacial procesa
directamente los píxeles - Los métodos de dominio de frecuencia operan
en algún tipo de dominio de transformación
método de histograma
Ecualización de histograma
Principio: aplanar
el histograma gris de la imagen
El algoritmo se puede dividir en tres pasos:
- Calcular el histograma en escala de grises de una imagen
- Calcular probabilidad acumulada
- Determinar la relación de mapeo
- Recorra toda la imagen píxel por píxel y transforme según la relación de mapeo
Vamos a entender más a través de ejemplos:
-
El histograma de una imagen es el siguiente
-
Calcule la probabilidad acumulada de cada nivel de gris
-
Determinar la relación de mapeo
Aquí hay una explicación de 3 3 en la quinta fila y tercera columna de la siguiente tabla3 cálculo, la misma razón para otros
(1) 0,44 × 7 = 3,08 0,44\veces 7=3,080.44×7=3.08 , donde 7 es el nivel de gris de la imagen8 88 menos1 11(L−1 L-1L−1)
(2)3.08 3.083.08 seredondeaa3 33 , lo que significa que los píxeles con escala de grises de 1 en la imagen original se cambian a píxeles con escala de grises de 3 -
Recorra toda la imagen píxel por píxel y realice transformaciones de acuerdo con la relación de mapeo
Debido a que la imagen original no se proporciona en el título, este paso no se puede realizar. El cálculo de este paso es engorroso y no se probará en el examen. Solo necesita saber cómo encontrar la relación de mapeo,
pero puede encontrar el histograma transformado:Imagen en escala de grises después de la transformación 1 3 5 6 7 El número de píxeles en el nivel de gris transformado 790 1023 850 985 448 Histograma de la imagen transformada 0.19 0.25 0.21 0.24 0.11 Debido a la operación de redondeo y redondeo, el resultado no es que las distribuciones de probabilidad de cada nivel de gris sean iguales, pero la diferencia no es grande, aproximadamente igual
ventaja:
- Puede mejorar efectivamente el contraste y la claridad de la imagen.
defecto:
- No se utiliza la información de ubicación espacial de los píxeles.
Especificación de histograma
La especificación del histograma recibe un histograma de destino, lo que debe hacer es encontrar la relación de mapeo del histograma original al histograma de destino
La diferencia entre la especificación del histograma y la ecualización del histograma es que
la ecualización del histograma ha determinado el histograma objetivo (un histograma plano)
y el histograma objetivo de la especificación del histograma viene dado por el título, que puede ser cualquier histograma.
La ecualización del histograma se puede considerar como una especificación especial del histograma.
El algoritmo específico no se describirá en detalle, pero usted mismo puede calcular los siguientes ejemplos:
- 0.19 0.190,19 y0,15 0,150.15 es el más cercano, entonces0 → 3 0\rightarrow 30→3
- 0,44 0,440,44 y0,35 0,350.35 es lo más cercano, entonces1 → 4 1\rightarrow 41→4
suavizado de imagen
El propósito del suavizado de imágenes: eliminar o atenuar el ruido y los falsos contornos de la imagen
Método de matriz de plantilla (máscara)
La plantilla matriz generalmente tiene las siguientes reglas:
M = 1 ∑ i = 1 9 mi [ m 1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 ] \mathbf M=\frac{1}{\sum_ {i =1}^9m_i}\begin{bmatriz}m_1&m_2&m_3\\m_4&m_5&m_6\\m_7&m_8&m_9\end{bmatriz}METRO=∑yo = 19metroyo1
metro1metro4metro7metro2metro5metro8metro3metro6metro9
Deslícese por la imagen a través de la matriz de la plantilla, preste atención para hacer coincidir el centro de la plantilla con el píxel correspondiente
, luego calcule la suma ponderada y asigne el resultado al píxel correspondiente al centro de la plantilla
El método de matriz de máscara tiene los siguientes métodos:
- Promedio del vecindario
- 4 44 promedio de vecindario
M = 1 4 [ 0 1 0 1 0 1 0 1 0 ] \mathbf M=\frac{1}{4}\begin{bmatrix}0&1&0\\1&0&1\\0&1&0\end{bmatrix}METRO=41 010101010 - 8 88 promedio de vecindario
M = 1 8 [ 1 1 1 1 0 1 1 1 1 ] \mathbf M=\frac{1}{8}\begin{bmatrix}1&1&1\\1&0&1\\1&1&1\end{bmatrix}METRO=81 111101111
- 4 44 promedio de vecindario
- método de promedio ponderado
- M = 1 5 [ 0 1 0 1 1 1 0 1 0 ] \mathbf M=\frac{1}{5}\begin{bmatrix}0&1&0\\1&1&1\\0&1&0\end{bmatrix};METRO=51 010111010
- M = 1 9 [ 1 1 1 1 1 1 1 1 ] \mathbf M=\frac{1}{9}\begin{bmatrix}1&1&1\\1&1&1\\1&1&1\end{bmatrix};METRO=91 111111111
- M = 1 16 [ 1 2 1 2 4 2 1 2 1 ] \mathbf M=\frac{1}{16}\begin{bmatrix}1&2&1\\2&4&2\\1&2&1\end{bmatrix}METRO=dieciséis1 121242121
Método de promedio de imágenes múltiples (fotogramas)
El método de promediado de múltiples imágenes consiste en recolectar repetidamente varias imágenes del mismo objeto y luego promediar estas imágenes para reducir el ruido.
Este método es adecuado para objetos estacionarios.
filtro de paso bajo
Este método es equivalente al método de matriz de plantilla.
Las señales con cambios bruscos, como ruido y bordes, se distribuyen en componentes de alta frecuencia.
El uso de un filtro de paso bajo puede filtrar algunos componentes de alta frecuencia hasta cierto punto, para lograr el efecto de reducción de ruido, pero al mismo tiempo. el tiempo filtra alguna información perimetral
filtro mediano
Principio: reemplazar el promedio local con la mediana local
Ventanas comunes para el filtrado de medianas:
-
Lineal
-
cuadrado
-
cruz
-
diamante
ventaja:
- Tiene un buen efecto de supresión en el pulso de interferencia y el ruido puntual.
- Buen agarre en los bordes
nitidez de imagen
Propósito de afilado: para fortalecer el contorno del objetivo
Por lo general, la imagen se suaviza primero y luego se agudiza , porque es posible que se pierda parte de la información de los bordes durante el proceso de suavizado, y la nitidez es para mejorar los bordes. El suavizado de imágenes y luego la nitidez pueden eliminar el ruido de la imagen
Nitidez de señal 1D:
Siempre que comprenda el enfoque unidimensional, será mucho más fácil comprender el enfoque bidimensional
Método de afilado de Laplace (método diferencial de segundo orden)
Fórmula de nitidez:
g ( x , y ) = f ( x , y ) − α ∇ 2 fg(x,y)=f(x,y)-\alpha\nabla^2 fg ( x ,y )=f ( x ,y )−α ∇2f donde
:
- g ( x , y ) g(x,y)g ( x ,y ) es la imagen nítida
- f ( x , y ) f(x,y)f ( x ,y ) es la imagen original
- ∇ 2f \nabla^2f∇2 f为f ( x , y ) f(x,y)f ( x ,y ) diferencial de segundo orden
La plantilla de afilado de Laplace se puede deducir de la fórmula:
- 4 matriz libre
M = [ 0 − α 0 − α 1 + 4 α − α 0 − α 0 ] \mathbf{M}=\begin{bmatrix}0&-\alpha&0\\-\alpha&1+4\alpha&-\; alfa\\0&-\alfa&0\end{bmatriz}METRO= 0− un0− un1+4 un- un0− un0 - 8 matriz libre
M = [ − α − α − α − α 1 + 8 α − α − α − α − α ] \mathbf{M}=\begin{bmatrix}-\alpha&-\alpha&-\alpha\\; -\alfa&1+8\alfa&-\alfa\\-\alfa&-\alfa&-\alfa\end{bmatriz}METRO= − un− un- un− un1+8 un- un− un− un- un - otras plantillas
Se puede ver en la plantilla anterior que las características de la plantilla de afilado de Laplace son: la suma
de todos los elementos en la matriz es 1
Cabe señalar que el movimiento en la plantilla (3x3) parte de la segunda fila y segunda columna de la imagen, no de la primera fila y primera columna. Porque los bordes alrededor de la imagen generalmente no se procesan
Método de nitidez del filtro de paso alto
Como se mencionó anteriormente, la información de borde generalmente se encuentra en el segmento de alta frecuencia, por lo que lo que queda después de que la imagen pasa a través del filtro de paso alto es la información de borde.
Los filtros de paso alto comunes son:
- Filtro Butterworth
- filtro de paso alto ideal
filtrado homomórfico
Una imagen f ( x , y ) f(x,y)f ( x ,y ) se puede descomponer en:
- Cantidad incidente i ( x , y ) i(x,y)yo ( x ,y )
La componente incidente es la luz incidente, su cambio es pequeño y relativamente uniforme, y ocupa principalmente componentes de baja frecuencia
como la luz solar. - Componente de reflexión r ( x , y ) r(x,y)r ( x ,y )
El componente de reflexión es la luz reflejada, que está determinada por la naturaleza del objeto y cambia mucho, ocupando el componente de alta frecuencia.Por ejemplo
, la luz reflejada por el objeto iluminado por la luz solar contiene la información del contorno del borde del objeto y cambia mucho
La idea del filtrado homomórfico es: comprimir i ( x , y ) i(x,y)yo ( x ,y ) , mejorador ( x , y ) r(x,y)r ( x ,y )
restauración de imagen
El propósito de la restauración de imágenes: eliminar o aliviar la degradación de la calidad de la imagen o la degradación causada en el proceso de adquisición y transmisión de imágenes , y restaurar la apariencia original de la imagen.
- fenómeno de degradación
- Se manifiesta como: desenfoque, distorsión, ruido, etc.
- Causas
Ruido del sensor, cámara desenfocada, movimiento relativo entre el objeto y el equipo de la cámara, turbulencia atmosférica aleatoria, diferencia de fase del sistema óptico, dispersión de la fuente de luz o los rayos de la imagen, etc.
La degradación de la imagen se puede resumir en los siguientes modelos:
-
Sin modelo de ruido
g ( x , y ) = f ( x , y ) ∗ h ( x , y ) g(x,y)=f(x,y)*h(x,y)g ( x ,y )=f ( x ,y )∗h ( x ,y )
-
Considere el modelo de ruido
g ( x , y ) = f ( x , y ) ∗ h (
x , y ) + n ( x , y ) g(x,y)=f(x,y)*h(x,y) +n(x,y)g ( x ,y )=f ( x ,y )∗h ( x ,y )+n ( x ,y )
长域公式
G ( tu , v ) = F ( tu , v ) H ( tu , v ) + N ( tu , v ) G(u,v)=F(u,v)H(u,v) +N(u,v)G ( tú ,v )=F ( tú ,v ) H ( tu ,v )+N ( tú ,v )
El principio de la restauración de imágenes:
imagen degradada conocida g ( x , y ) g(x,y)g ( x ,y ) , obtenerh ( x , y ) h(x,y)h ( x ,y) 和 n ( x , y ) n(x,y) n ( x ,y ) , y luego encuentra la imagen originalf ( x , y ) f(x,y)f ( x ,y ) estimaf ^ ( x , y ) \widehat{f}(x,y)F
( X ,y )
Los métodos se pueden dividir en:
- recuperación sin restricciones
- método de filtrado inverso
- Recuperación restringida
recuperación sin restricciones
Del modelo de degradación g = f ∗ h + ng=f*h+ngramo=F∗h+n , se puede ver
que el ruidon = g − f ∗ hn=gf*hnorte=gramo−F∗h , dondeg , f , hg,f,hg ,f ,h Conocido
El principio de la recuperación sin restricciones es encontrar la f ^ \widehat f estimadaF
Sea
ruido ∣ ∣ n ∣ ∣ 2 = ∣ ∣ g − f ^ ∗ h ∣ ∣ 2 ||n||^2=||g-\widehat f*h||^2∣∣ norte ∣ ∣2=∣∣ gramo−F
∗h ∣ ∣2 mínimo
método de filtrado inverso
Del modelo de degradación en el dominio de la frecuencia G = F ⋅ H + NG=F\cdot H+NGRAMO=F⋅H+N,可知
GH = F + NH \frac{G}{H}=F+\frac{N}{H}Hg=F+Hnorte
则
F ^ ≈ GH = F + NH \widehat F\approx \frac{G}{H}=F+\frac{N}{H}F
≈Hg=F+Hnorte
Recuperación restringida
levemente
detección de bordes
Clasificación de los bordes:
-
pisado
-
forma del techo
La idea básica de la detección de bordes:
De la figura, el borde es:
- puntos extremos de la primera derivada
- 0 punto de valor de la segunda derivada
Por lo tanto, para obtener información de borde, es necesario diferenciar la imagen
Los pasos básicos de la detección de bordes:
- El filtrado
es un filtro de paso bajo. Debido a que la derivada es sensible al ruido, primero es necesario filtrar el ruido. - La mejora
perderá parte de la información del borde durante el filtrado, y el borde debe mejorarse - Hay muchos puntos en la
imagen de detección con magnitudes de gradiente relativamente grandes, y estos puntos no son todos bordes en un campo de aplicación específico, por lo que se debe usar algún método para determinar qué puntos son puntos de borde.
Método del operador de la primera derivada
método de gradiente ortogonal
Principio; calcule las derivadas de primer orden en las direcciones horizontal y vertical, luego sintetice el gradiente y luego use el método de umbral de amplitud para binarizar el gradiente, y la imagen obtenida es un mapa de bordes
Plantilla de degradado:
- Sea
W h = [ 0 0 0 − 1 1 0 0 0 0 ] \mathbf W_h=\begin{bmatrix}0&0&0\\-1&1&0\\0&0&0\end{bmatrix};Wh= 0− 10010000 - Indicador
W v = [ 0 − 1 0 0 1 0 0 0 0 ] \mathbf W_v=\begin{bmatrix}0&-1&0\\0&1&0\\0&0&0\end{bmatrix};Wv= 000− 110000
Obtenga las derivadas horizontales y verticales:
G h = F ∗ W h G v = F ∗ W v \begin{aligned}\mathbf G_h=\mathbf F*\mathbf W_h\\ \mathbf G_v=\mathbf F*\mathbf W_v \ final{alineado}GRAMOh=F∗WhGRAMOv=F∗Wv
Gradiente sintético:
- GRAMO = GRAMO h 2 + GRAMO v 2 (1) \mathbf G=\sqrt{\mathbf G_h^2+\mathbf G_v^2}\tag{1}GRAMO=GRAMOh2+GRAMOv2( 1 )
- GRAMO = ∣ GRAMO h ∣ + ∣ GRAMO v ∣ (2) \mathbf G=|\mathbf G_h|+|\mathbf G_v|\tag{2}GRAMO=∣ solh∣+∣ solv∣( 2 )
- GRAMO = max { ∣ GRAMO h ∣ + ∣ GRAMO v ∣ } (3) \mathbf G=\max{\{|\mathbf G_h|+|\mathbf G_v|\}}\tag{3}GRAMO=máximo{ ∣ Gh∣+∣ solv∣ }( 3 )
Binarización del método de umbral de amplitud:
B ( m , n ) = { 1 , G ( m , n ) ≥ b 0 , else \mathbf B(m,n)=\begin{cases}1,&G(m,n) \geq b\\0,&\text{otro}\end{casos}segundo ( metro ,norte )={
1 ,0 ,G ( metro ,norte )≥bmás
Aquí hay un ejemplo del método de gradiente ortogonal:
Método del operador de gradiente de Roberts
El método del operador de gradiente de Roberts es similar al método de gradiente ortogonal, excepto que las derivadas direccionales de la esquina superior izquierda y la esquina superior derecha se calculan por separado.
Plantilla para el método del operador de gradiente de Roberts:
- Indique W
h = [ − 1 0 0 0 1 0 0 0 0 ] \mathbf W_h=\begin{bmatrix}-1&0&0\\0&1&0\\0&0&0\end{bmatrix};Wh= − 100010000 - Entonces
W v = [ 0 0 − 1 0 1 0 0 0 0 ] \mathbf W_v=\begin{bmatrix}0&0&-1\\0&1&0\\0&0&0\end{bmatrix};Wv= 000010− 100
El siguiente es un ejemplo de detección de operador de Roberts:
Método de operador de gradiente suave (método de diferencia de medias)
La diferencia entre el método de diferencia promedio y el método de gradiente ortogonal es:
el método de diferencia promedio primero calcula el promedio y luego calcula la derivada , y hay un proceso de promedio adicional, que puede suprimir el ruido hasta cierto punto.
Método de operador de gradiente de Prewitt (método de diferencia promedio)
Plantilla para el método de operador de gradiente de Prewitt:
- Sea
W h = 1 3 [ − 1 0 1 − 1 0 1 − 1 0 1 ] \mathbf W_h=\frac{1}{3}\begin{bmatrix}-1&0&1\\-1&0&1\\-1&0&1\end{ bmatriz}Wh=31 − 1− 1− 1000111 - Forma
W v = 1 3 [ − 1 − 1 − 1 0 0 0 1 1 1 ] \mathbf W_v=\frac{1}{3}\begin{bmatrix}-1&-1&-1\\0&0&0\\1&1&1\ final{bmatriz}Wv=31 − 101− 101− 101
Método del operador de Sobel (método de diferencia de promedio ponderado)
Plantilla del método del operador Sobel:
- Sea
W h = 1 4 [ − 1 0 1 − 2 0 2 − 1 0 1 ] \mathbf W_h=\frac{1}{4}\begin{bmatrix}-1&0&1\\-2&0&2\\-1&0&1\end{ bmatriz}Wh=41 − 1− 2− 1000121 - La función
W v = 1 4 [ − 1 − 2 − 1 0 0 0 1 2 1 ] \mathbf W_v=\frac{1}{4}\begin{bmatrix}-1&-2&-1\\0&0&0\\1&2&1 \ end{bmatriz}Wv=41 − 101− 202− 101
Como se mencionó anteriormente, la reducción de ruido también perderá algo de información de borde al mismo tiempo, pero debido al efecto de ponderación del método del operador sobel, el borde obtenido por él es más claro que el operador prewitt.
Estos son ejemplos de detección de prewitt y detección de sobel:
método de gradiente direccional
El método de gradiente de dirección puede obtener la dirección del borde mientras detecta el borde
El principio es:
encuentre la derivada direccional de la imagen en diferentes direcciones, tome la dirección con el mayor valor de módulo como la dirección del borde, y este valor es la fuerza del borde.
En general, se calculan las derivadas direccionales en ocho direcciones y la plantilla es la siguiente:
Aquí hay un ejemplo del método de gradiente direccional:
operador astuto
Pasos astutos del operador:
-
Aplique filtrado gaussiano para suavizar la imagen con el objetivo de eliminar el ruido
-
Calcule el gradiente (primera derivada) de la imagen
usando lo siguiente para verificar la imagen original F \mathbf FF realiza una convolución para obtener el gradiente horizontalG h \mathbf G_hGRAMOh, gradiente vertical G v \mathbf G_vGRAMOv- Sea
W h = 1 2 [ − 1 1 − 1 1 ] \mathbf W_h=\frac{1}{2}\begin{bmatrix}-1&1\\-1&1\end{bmatrix}Wh=21[− 1− 111]
GRAMO h = F ∗ W h \mathbf G_h=\mathbf F*\mathbf W_hGRAMOh=F∗Wh - Forma
W v = 1 2 [ − 1 − 1 1 1 ] \mathbf W_v=\frac{1}{2}\begin{bmatrix}-1&-1\\1&1\end{bmatrix}Wv=21[− 11− 11]
GRAMO v = F ∗ W v \mathbf G_v=\mathbf F*\mathbf W_vGRAMOv=F∗Wv
La matriz del módulo de gradiente se obtiene mediante la siguiente fórmula:
G = G h 2 + G v 2 \mathbf G=\sqrt{\mathbf G_h^2+\mathbf G_v^2}GRAMO=GRAMOh2+GRAMOv2
La matriz del argumento de gradiente (dirección) se obtiene mediante la siguiente fórmula:
θ = arctan G v G h \mathbf \theta=\arctan\frac{\mathbf G_v}{\mathbf G_h}i=arcánGRAMOhGRAMOv - Sea
-
Aplicación de supresión no máxima (NMS) para eliminar la detección falsa de borde
- Discretizar la dirección del gradiente en 8 direcciones. Las 8
direcciones son 0 , 45 , 90 , 135 , 180 , 225 , 270 , 315 0,45,90,135,180,225,270,3150 ,45 ,90 ,135 ,180 ,225 ,270 ,315 grados
El método es ver cuál de los 8 valores está más cerca de la dirección del degradado y asignar el valor a la dirección del degradado.
Por ejemplo, si la dirección del degradado de un píxel es 125,122 grados, asígnelo a 135 grados. - Compare este píxel con los píxeles en la dirección positiva y negativa de su dirección de gradiente
- Si el módulo de gradiente de este píxel es el más grande, manténgalo; de lo contrario, configúrelo en 0
- Discretizar la dirección del gradiente en 8 direcciones. Las 8
-
Aplique el método de umbral doble para detectar y conectar los límites.
Establezca dos umbrales (uno grande y otro pequeño) para binarizar el mapa de degradado para obtener un mapa de borde de umbral alto y un mapa de borde de umbral bajo. El mapa de borde de umbral alto es relativamente intermitente. Buscando el
borde de umbral bajo El vecindario 8 del gráfico para llenar los puntos de corte del gráfico de borde de umbral alto para que sea continuo
El siguiente es un ejemplo del uso del operador Canny para encontrar el borde:
Método del operador de la segunda derivada
Como su nombre lo indica, el método del operador de la derivada de segundo orden consiste en utilizar el punto donde la derivada de segundo orden de la imagen es 0 para obtener información sobre los bordes. Tenga en cuenta que no todos los
puntos con un valor de derivada de segundo orden de 0 son puntos de borde .
método laplaciano
Este método se mencionó cuando se habló de afilar, si lo olvidó, haga clic en el portal
ventaja:
- Invariancia isotrópica , lineal y única
- Buen efecto de detección en puntos aislados y segmentos de línea.
defecto:
- Sensible al ruido , tiene un doble efecto de refuerzo sobre el ruido, porque deriva dos veces
- No se puede detectar la dirección del borde, lo que a menudo resulta en bordes de doble píxel
Aquí hay un ejemplo de cómo encontrar un gráfico de borde con el Laplaciano:
método de operador LoG
El principio del método del operador LoG (Laplaciano de un Gaussiano):
primero use el operador Gaussiano (filtro de paso bajo) para suavizar la imagen (reducción de ruido), y luego use el operador Laplaciano para detectar el borde, también conocido
como Marr operador
El siguiente es un ejemplo de cómo encontrar un mapa de borde por el operador LoG:
El siguiente es un ejemplo de búsqueda de aristas para todos los operadores mencionados anteriormente (excepto canny):
Segmentación de imagen
Definición de segmentación de imágenes :
dividir la imagen (conjunto) RRR se divide envacíos(subregiones) queno se superponen entre síR 1 , R 2 , ⋯ , R n R_1,R_2,\cdots,R_n R1,R2,⋯,Rn
R yo , yo = 1 , 2 , ⋯ , norte R_i,\ yo =1,2,\cdots,nRyo, i=1 ,2 ,⋯,n esuna región conexa
El área conectada es un área en la que los valores de gris de los píxeles son similares y la conectividad de los píxeles de referencia es
El propósito de la segmentación de imágenes :
- Divide la imagen en varios subconjuntos de acuerdo con ciertas reglas.
- Localiza la posición del objeto de interés en la imagen
Segmentación de imágenes basada en características :
-
escala de grises o color
-
Perímetro
-
textura
-
Semántica
Como se muestra en la figura siguiente, la semántica basada en automóviles, árboles, carreteras, etc.
La segmentación de imágenes se basa en suposiciones :
- Suposición de similitud
, las características de cierta parte del objeto dentro de la región son similares o iguales - Suposición de discontinuidad
, grandes diferencias en características entre partes de diferentes objetos entre regiones
La idea básica de la segmentación de imágenes :
- De lo simple a lo difícil, segmentación nivel por nivel : primero separe el objetivo principal del todo y considere los detalles
- Controle el fondo, reduzca la complejidad
- Concéntrese en el objeto de interés para reducir la interferencia de componentes irrelevantes
La siguiente es una combinación de reconocimiento de matrículas para comprender las ideas básicas de la segmentación de imágenes:
- Extraer contorno
Obtenga la información de contorno de la imagen, lo que ayuda a separar el objetivo principal del conjunto - Ubicación de la matrícula
Localice la posición del objetivo principal en la imagen - Reconocimiento de matrículas
Foco en objetivos primarios
Alcance de la investigación de la segmentación de imágenes :
- algoritmo de segmentación
- Métodos para evaluar algoritmos de segmentación
Problemas en la segmentación de imágenes :
- No existe un método universal, se requieren diferentes algoritmos para resolver diferentes problemas
- Lejos de alcanzar el efecto de segmentación del sistema visual humano
El algoritmo principal de segmentación de imágenes :
- Algoritmo de segmentación basado en umbral
- Algoritmo de segmentación basado en borde
- Algoritmo de segmentación basado en regiones
- Algoritmo de segmentación basado en morfología matemática
Algoritmo de segmentación basado en umbral
El principio del algoritmo de segmentación basado en el umbral:
use la diferencia entre el fondo y el valor de gris objetivo para seleccionar uno adecuado para separarlo
ventaja:
- sencillo y rápido
- El límite de una región cerrada y conexa siempre se puede obtener
defecto:
- Solo apto para situaciones en las que hay un fuerte contraste entre el objetivo y el fondo.
- Solo aplicable a fondos y objetos con un solo valor de gris
método de histograma
El método del histograma es aplicable al caso en que el histograma de la imagen obviamente tiene múltiples picos.
En el caso en que la imagen muestra picos dobles:
En este momento, seleccione el valor de gris TT correspondiente a la parte inferior del picoT se utiliza como umbral para separar el fondo del objetivo.
La expresión matemática es:
g ( x , y ) = { 1 , f ( x , y ) ≥ T 0 , f ( x , y ) < T g(x ,y)=\ begin{casos}1,&f(x,y)\geq T\\0,&f(x,y)<T\end{casos}g ( x ,y )={
1 ,0 ,f ( x ,y )≥Tf ( x ,y )<T
La siguiente imagen muestra el caso de tres picos, y más picos son similares:
Sea
g ( X , y ) = { C 1 , F ( X , y ) ≤ T 1 C 2 , F ( X , y ) ≤ T 2 C 3 , F ( X , y ) > T 2 g( X,Y )=\begin{caso}c_1,&f(x,y)\leq T_1\\c_2,&f(x,y)\leq T_2\\c_3,&f(x,y)>T_2\end{casos} }g ( x ,y )=⎩
⎨
⎧C1,C2,C3,f ( x ,y )≤T1f ( x ,y )≤T2f ( x ,y )>T2
defecto:
- Debido a la influencia del ruido, la selección del valor inferior como umbral no es el valor esperado
- La información del espacio de píxeles no se usa, solo se usa la información en escala de grises
- Los requisitos para la imagen son más estrictos, por ejemplo, el histograma debe ser obviamente de varios picos
método de umbral óptimo
Como se mencionó anteriormente, el método de histograma elige la parte inferior del umbral ya que el umbral no es el mejor umbral,
la siguiente imagen puede reflejarse bien
El método de umbral óptimo consiste en seleccionar el nivel de gris cuya densidad de probabilidad del fondo sea igual al valor de la función de densidad de probabilidad del objetivo como umbral.
ventaja:
- La segmentación es más precisa que el método del histograma
defecto:
- Es difícil obtener la curva de función de densidad de probabilidad y se requiere una gran cantidad de estadísticas para obtener
método de iteración media
Pasos del método de iteración media:
- Elija un umbral estimado inicial TTT
Este umbral se puede utilizar con el valor medio de gris de la imagen - Utilice este umbral para dividir la imagen en dos partes R 1 R_1R1y R 2 R_2R2
- Calcular R 1 R_1 respectivamenteR1y R 2 R_2R2La media de μ 1 \mu_1metro1和μ 2 \mu_2metro2
- Vuelva a seleccionar el umbral T = μ 1 + μ 2 2 T=\frac{\mu_1+\mu_2}{2}T=2metro1+ m2
- Repita los pasos 2 a 4 hasta que μ 1 \mu_1metro1和μ 2 \mu_2metro2ya no cambia
El método de iteración media es un caso especial del método de partición óptima
Supongamos que pt ( z ) , pb ( z ) p_t(z),p_b(z)pagt( z ) ,pagsegundo( z ) son las funciones de densidad de probabilidad de las distribuciones de grises objetivo y de fondo respectivamente,θ \thetaθ es la relación entre el píxel objetivo y todo el píxel de la imagen,
luego la función de densidad de probabilidad de la distribución de la imagen esp ( z ) = θ pt ( z ) + ( 1 − θ ) pb ( z ) p(z)=\ theta p_t(z)+ (1-\theta) p_b(z)pag ( z )=θ pagst( z )+( 1−yo ) pagsegundo( z )
当pt ( z ) , pb ( z ) p_t(z),p_b(z)pagt( z ) ,pagsegundo( z ) es una función de distribución normal, la media esμ 1 , μ 2 \mu_1,\mu_2metro1,metro2, la varianza es σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2pag12,pag22
pt ( z ) = p_t(z)=pagt( z )=
método de varianza entre clases
El principio del método de varianza entre clases:
buscando un umbral TTT hace que el resultado de la segmentación seaR 1 , R 2 R_1,R_2R1,R2Satisfacer la varianza mínima dentro de la clase de valor gris y la varianza máxima entre clases
La siguiente es una comparación de métodos basados en la segmentación de umbral:
Segmentación basada en regiones
método de crecimiento de la región
Principio: combinar píxeles similares para formar un área segmentada
- A partir de un "píxel semilla", compare la similitud de sus píxeles vecinos y, si son similares, agregue píxeles similares al área de crecimiento
- Repita los pasos anteriores hasta que no se agreguen píxeles al área de crecimiento
Según diferentes criterios de similitud, se puede dividir en:
- Método de crecimiento simple , píxel + píxel
Compare el valor de gris del punto de crecimiento (punto en el área de crecimiento) con el punto en su vecindad , si la diferencia entre ellos es menor que un umbral determinado, agregue el punto de vecindad al área de crecimiento
es decir∣ F ( metro , norte ) − F ( s , t ) ∣ < T |f(m,n)-f(s,t)|<T∣ f ( metro ,norte )−f ( s ,t ) ∣<T其中
f ( s , t ) f(s,t)f ( s ,t ) es el valor gris del punto de crecimiento
f ( m , n ) f(m,n)f ( metro ,n ) es el valor de gris del punto de vecindad
TTT es una fuerte dependencia del umbral
en el punto de semilla - Método de crecimiento centroide , región + píxel Compare el valor de gris promedio de todos los puntos
en la región en crecimiento con el valor de gris de los puntos vecinos , si su diferencia es menor que un cierto umbral, luego agregue los puntos vecinos a la región en crecimiento, es decir, ∣ f ( metro , norte ) − F ( s , t ) ‾ ∣ < T |f(m,n)-\overline{f(s,t)}|<T
∣ f ( metro ,norte )−f ( s ,t )∣<T donde
f ( s , t ) ‾ \overline{f(s,t)}f ( s ,t )es el valor de gris promedio de todos los puntos en el área de crecimiento
f ( m , n ) f(m,n)f ( metro ,n ) es el valor de gris TTdel punto de vecindad
T es el umbral
para reducir la dependencia del punto semilla - Método de crecimiento mixto , área + área
Compare los valores de gris promedio de todos los puntos en las dos áreas, y si su diferencia es menor que un cierto umbral, entonces combínelos, es decir,
∣ f ‾ 1 − f ‾ 2 ∣ < T |\overline f_1- \overline{f}_2|<T∣F1−F2∣<T donde
f 1 ‾ \overline{f_1}F1es el valor de gris promedio f ‾ 2 \overline f_2 de todos los puntos en la primera área de crecimiento
F2es el valor de gris promedio TT de todos los puntos en la segunda área de crecimiento
T es el umbral
para mejorar la anti-interferencia
ventaja:
- calculo sencillo
defecto:
- Se requiere interacción manual para obtener puntos de semilla, y cada área segmentada debe implantarse con un punto de semilla
- susceptible al ruido
El siguiente es un ejemplo de demostración del método de crecimiento de regiones:
dividir-fusionar
Principio: primero descomponer la imagen en diferentes regiones y luego fusionarlas según la similitud
- Determine el criterio de medición de similitud regional, es decir, el criterio de dividir y combinar
Puede elegir el
error cuadrático medio EA = 1 NA ∑ ( m , n ) ∈ A [ f ( m , n ) − μ A ] 2 μ A = 1 NA ∑ ( metro , norte ) ∈ A f ( metro , norte ) E_A=\frac{1}{N_A}\sum\limits_{(m,n)\in A}[f(m,n)-\mu_A ]^2\\\mu_A= \frac{1}{N_A}\sum\limits_{(m,n)\in A}f(m,n)miun=norteun1( metro , norte ) ∈ UN∑[ f ( metro ,norte )−metroun]2metroun=norteun1( metro , norte ) ∈ UN∑f ( metro ,n )
Entre ellosEA E_Amiunpara el área AAEl error cuadrático medio del valor de gris de A
μ A \mu_Ametrounpara el área AAEl valor de gris promedio de A
es NA N_Anorteunpara el área AAEl número de píxeles de A - Cuando una región de la imagen es diferente, divídala en cuatro regiones iguales.
Si se usa el error cuadrático medio como criterio, entonces
cuando el error cuadrático medio de una sola región EA > a E_A>amiun>un tiempo (comoa = 1.5 a = 1.5a=1.5 ) dividir - Cuando las áreas adyacentes son similares, fusionarlas.
Si se usa el error cuadrático medio como criterio, entonces
cuando el error cuadrático medio de dos áreas adyacentes E ( A + B ) ≤ b E_{(A+B)}\leq bmi( A + B )≤b (comob = 2,5 b=2,5b=2.5 ) Fusionar - Repita los pasos 2 a 3 hasta que no haya división ni fusión en curso
Aquí hay una demostración del método split-merge:
Algoritmo de segmentación basado en cuenca morfológica
principio:
- Cualquier imagen en escala de grises se puede considerar como un mapa topográfico, generalmente un mapa de gradiente
de una imagen en escala de grises.
- Haga un agujero desde la posición mínima de cada área y, al mismo tiempo , inyecte agua uniformemente desde el agujero.
Tenga en cuenta que cada área tiene un agujero. - Cuando el agua en diferentes áreas esté a punto de acumularse, construya un límite alto para evitar que se acumule
. Tenga cuidado de construir una presa alta para evitar que se acumule, de lo contrario, el límite se inundará. - El límite de la última presa es la línea divisoria
Características del resultado de la segmentación:
- Cada región está cerrada, no hay intersección entre regiones.
- El ancho del borde es un píxel
ventaja:
- La transformación puede ubicar con precisión el borde, la operación es simple y es fácil de procesar en paralelo
defecto:
- Es fácil producir una segmentación excesiva y producir una gran cantidad de áreas pequeñas
porque la imagen de entrada suele ser un mapa de degradado, y el mapa de degradado es susceptible al ruido.
Se pueden realizar las siguientes mejoras:- Preprocesamiento de imágenes: reducción de ruido suave
- Agregar restricciones al dividir
- Reprocesamiento de los resultados de la segmentación
El siguiente es un ejemplo de demostración de un algoritmo de segmentación basado en cuencas hidrográficas morfológicas:
Procesamiento Matemático Morfológico de Imágenes
El procesamiento de imágenes de morfología matemática es un nuevo método de procesamiento y análisis de imágenes. El
lenguaje que utiliza es la teoría de conjuntos
, lo que significa: sus operaciones están definidas por operaciones de conjuntos.
Las operaciones de conjuntos no se describen aquí. Mi blog tiene Acerca de la explicación de la colección, si la olvidas, puedes ir a verla tú mismo, el portal
El contenido involucrado en lo siguiente solo considera imágenes binarias
Fundamental
- El elemento estructural es una plantilla, procesa la imagen moviéndose constantemente en la imagen y realizando operaciones establecidas, no es necesariamente un polígono regular
operaciones básicas
corrosión
La siguiente imagen se utiliza para demostrar visualmente la operación de erosión:
Se puede ver en la figura que la operación de erosión es en realidad para alinear el origen de la plantilla con el punto correspondiente en la imagen.Si todos los puntos con un valor de 1 en la plantilla tienen un valor de 1 en el punto correspondiente en la imagen, se proporciona el valor de gris del punto de alineación en la imagen. El valor de grado es 1, de lo contrario, 0 se
puede comparar con la operación AND de los conjuntos
A ⊖ BA\ominus BA⊖B representa el elemento estructuranteBBB corroe la imagenAAA
expandir
La siguiente imagen se utiliza para demostrar visualmente la operación de erosión:
Se puede ver en la figura que la operación de expansión es en realidad para alinear el origen de la plantilla con el punto correspondiente en la imagen.Si hay un punto con un valor de 1 en la plantilla y el valor del punto correspondiente en la la imagen también es 1, se proporciona el valor de gris del punto de alineación en la imagen. El valor de grado es 1, de lo contrario, la asignación de 0 se
puede comparar con la operación OR establecida
A ⊕ BA\oplus BA⊕B representa el elemento estructuranteBBB imagen infladaAAA
Tenga en cuenta que el resultado de la erosión y la dilatación es dar al píxel en la imagen original una posición correspondiente al origen del elemento estructurante.
operación abierta
La operación de apertura es utilizar el elemento estructural BBB a la imagenAAA se corroe primero y luego se expande, denotado comoA ∘ BA\circ BA∘B
则A ∘ B = ( A ⊖ B ) ⊕ BA\circ B=(A\ominus B)\oplus BA∘B=( Un⊖segundo )⊕El significado de la
operación de aperturadentro de los límitesde A, el punto más lejano que puede alcanzar el punto en B, como se muestra en la siguiente figura
El papel de la operación abierta :
suavizar el contorno y eliminar pequeños puntos discretos o picos en el límite del objeto. La operación abierta se usa a menudo para romper discontinuidades estrechas y eliminar objetos pequeños y protuberancias delgadas.
La siguiente es una demostración de la operación abierta:
cerrar operación
La operación de cierre es utilizar el elemento de estructura BBB a la imagenAAA se expande primero y luego se corroe, denotado comoA ∙ BA\bullet BA∙B
则A ∙ B = ( A ⊕ B ) ⊖ BA\bullet B=(A\oplus B)\ominus BA∙B=( Un⊕segundo )⊖El significado de la
operación cerradafuera del límitede A, el punto más lejano que puede alcanzar el punto en B, como se muestra en la siguiente figura
La función de la operación de cierre :
llenar pequeños agujeros en el objeto, llenar pequeños cortes en la línea de contorno y conectar los espacios largos y delgados entre dos objetos
La siguiente es una demostración de la operación de cierre:
golpear perder transformar
El concepto de éxito y error :
- 击中
AAA yBBB es dos conjuntos, cuandoA ∩ B ≠ ∅ A\cap B\neq \varnothingA∩B=∅ se llamaBBB golpeaAAA - señorita
AAA yBBB es dos conjuntos, cuandoA ∩ B = ∅ A\cap B= \varnothingA∩B=∅ se llamaBBB extrañaa AAA
Transformación Hit-Miss (HMT):
definida de la siguiente manera:
A ⊛ B = ( A ⊖ B 1 ) ∩ ( A c ⊖ B 2 ) A\circledast B=(A\ominus B_1)\cap (A^c\ ominus B_2 )A⊛B=( Un⊖B1)∩( UnC⊖B2)
Entre ellosAAA es la imagen;B 1 , B 2 B_1,B_2B1,B2para elemento estructural B 1 B_1B1Para la parte de golpe requerida, B 2 B_2B2Para la parte de no golpear (no importa si no entiendes, hay ejemplos a continuación); A c A^cAc paraAAEl complemento de A (invertir cada elemento)
Aquí debemos prestar atención aA c A^cAc , como se muestra en la siguiente figura
Función de transformación hit—no hit: (Si no quiere entender el motivo, simplemente recuerde la función directamente, no necesita recordar la fórmula)
Localice el elemento estructural BBB en la imagenAAPara la posición en A , use la siguiente fórmula:
A ⊛ B = ( A ⊖ B ) ∩ ( A c ⊖ B c ) A\circledast B=(A\ominus B)\cap (A^c\ominus B^ c )A⊛B=( Un⊖segundo )∩( UnC⊖Bc )
Note queA c , B c A^c,B^cAc ,BHay infinitos 1 fuera del límite de c , pero para expresar convenientemente el proceso de operación de corrosión, B c B^cBc solo mostrará un píxel fuera del
marco
Para explicar la razón, aquí se introducen los conceptos de primer plano y fondo.
- Primer plano: el elemento que "nos importa", 1 en una imagen binaria
- Fondo: Elementos que "no nos importan", 0 en imagen binaria
La esencia del resultado de la operación de corrosión es obtener el conjunto de orígenes que coinciden con los elementos estructurales (primer plano) en la imagen,
por lo que A ⊖ BA\ominus BA⊖B está solo en la imagenAAA encontrado conBBEl primer plano de B coincide solo con una serie de posiciones, pero el fondo no necesariamente coincide,
por lo que el fondo debe coincidir, y hayA c ⊖ B c A^c\ominus B^cAC⊖BEn el elemento c , la operación de complemento reemplaza el primer plano y el fondo, por lo que la coincidencia es el fondo. La
intersección de la parte coincidente del primer plano y la parte coincidente del fondo esBBLa parte donde coinciden tanto el primer plano como el fondo de B , es decir,BBDonde apareció B
algunos algoritmos
Hablemos de algunos algoritmos morfológicos básicos: el objeto de procesamiento es una imagen binaria
Extracción de límites
Principio:
β ( A ) = A − ( A ⊖ B ) \beta(A)=A-(A\ominus B)segundo ( un )=A−( Un⊖B )
en el queβ ( A ) \beta(A)β ( A ) es la imagenAAMapa de límites de A , BBB es un elemento estructural
Aquí hay un ejemplo:
relleno de área
principio:
- X 0 X_0X0para tamaño e imagen aaUn mapa en blanco tan grande como A (los valores son todos ceros)
- deAA _Seleccione un punto en el área a rellenar en A , correspondiente aX 0 X_0X0Establezca el valor del punto correspondiente en 1 en
- Aplica la fórmula X k = ( X k − 1 ⊕ B ) ∩ A c X_k=(X_{k-1}\oplus B)\cap A^cXk=( Xk - 1⊕segundo )∩AC
- Repita el paso 3 hasta que el área ya no crezca
- Finalmente X k ∪ A X_k\cup AXk∪A es la imagen después del relleno del área
Aquí hay un ejemplo:
análisis de textura
Antes de hablar del análisis de texturas, vamos a explicar algunos nombres:
Definición de textura
Definición de textura :
La textura es un fenómeno visual ubicuo. Podemos sentirlas fácilmente, pero es difícil definirlas con precisión. Las siguientes son dos definiciones comúnmente utilizadas. Definición 1:
De acuerdo con ciertas reglas, los elementos o Elementos base (primitivos) son dispuestas para formar un patrón repetitivo
Definición 2: si un conjunto de propiedades locales de la función de imagen es constante , cambia lentamente o es aproximadamente periódico , entonces la región correspondiente en la imagen tiene una textura constante.
A continuación se muestran algunos mapas de textura:
Características básicas de las texturas
- Propiedades de la región. La textura es un atributo de un área de una imagen y está íntimamente relacionado con la resolución de la imagen
- Repetibilidad, regularidad, direccionalidad, etc.
Definición de análisis de textura
Definición de análisis de textura El análisis de textura se refiere al proceso de procesamiento de extracción de parámetros característicos de la textura
a través de ciertas técnicas de procesamiento de imágenes , para obtener una descripción cuantitativa o cualitativa de la textura. El análisis de textura incluye: clasificación de textura, segmentación de textura, recuperación de forma a partir de textura, etc. Para: inspección de productos, análisis de imágenes médicas, procesamiento de documentos, análisis de imágenes de teledetección, etc.
Descripción de la textura La extracción de características
de la textura es el proceso de extraer características de la textura de la imagen a través de un cierto algoritmo para obtener una descripción cuantitativa de la textura. En otras palabras, es encontrar un vector que pueda describir las características de la textura, de modo que la distancia dentro de la clase de textura pueda puede reducirse mientras que la distancia entre clases puede aumentarse.
Segmentación de texturas
Divide la imagen en varias regiones inconexas según las características de la textura para determinar los límites de las diferentes texturas de la imagen
Clasificación de texturas
La clasificación de texturas consiste en clasificar correctamente imágenes de texturas desconocidas en tipos de texturas conocidas.
El siguiente es el marco de clasificación:
La siguiente imagen muestra la clasificación de texturas y la segmentación de texturas.
Síntesis de texturas
La síntesis de texturas es la síntesis de imágenes de texturas a partir de primitivas de texturas.
Métodos de análisis de textura
- Métodos estadísticos
Utilizan las características de distribución de niveles de gris de la textura en el espacio,
la matriz de coocurrencia de niveles de gris y la función de autocorrelación - Métodos estructurales
Utilizan las características de las primitivas organizadas en texturas
Basados en características primitivas o reglas de combinación de primitivas - Los métodos basados en modelos
asumen que las texturas son instancias de una clase de modelos paramétricos
Campos aleatorios de Markov - Métodos de procesamiento de señales
Utilice la periodicidad de la textura y utilice métodos de filtrado para procesar
la transformada de Fourier, la transformada de Gabor, la transformada de ondas, etc.
matriz de co-ocurrencia de nivel de gris
Cálculo de la matriz de coocurrencia en escala de grises:
suponiendo una imagen AA en escala de grisesEl nivel de gris de A esLLL
- Recorra toda la imagen píxel por píxel, suponiendo que las coordenadas del punto que se está recorriendo actualmente son ( m , n ) (m,n)( m ,n ) , el valor de gris esA ( m , n ) A(m,n)un ( m ,n ) . Hay un vector de desplazamientod = ( a , b ) d=(a,b)d=( un ,b ) , las coordenadas del punto de compensación son( m + a , n + b ) (m+a,n+b)( metro+un ,norte+b ) , el valor de gris esA ( m + a , n + b ) A(m+a,n+b)un ( metro+un ,norte+b ) . Registre el valor de gris de estos dos puntos[ A ( m , n ) , A ( m + a , n + b ) ] [A(m,n),A(m+a,n+b)][ un ( metro ,n ) ,un ( metro+un ,norte+b )] ,li = A ( metro , norte ) , lj = A ( metro + a , norte + segundo ) l_i=A(m,n),l_j=A(m+a,n+b)yoyo=un ( m ,n ) ,yoj=un ( metro+un ,norte+b ) , entonces el valor de gris de estos dos puntos se puede registrar como< li , lj > <l_i,l_j><yoyo,yoj> , la razón de escribir esto es porque está ordenado, es decir,< li , lj > ≠ < lj , li > <l_i,l_j>\neq <l_j,l_i><yoyo,yoj>=<yoj,yoyo> . Después de atravesar toda la imagen, se obtendrán una serie de pares de valores de gris
- Cuente los resultados, asumiendo N ( li , lj ) N(l_i,l_j)norte ( lyo,yoj) es el par de valores grises< li , lj > <l_i,l_j><yoyo,yoj> el número de ocurrencias. Los resultados estadísticos se pueden escribir como un tamaño deL × LL\times LL×La matriz de L , la primerali l_iyoyolínea lj l_jyojLos elementos de la columna son N ( li , lj ) N(l_i,l_j)norte ( lyo,yoj)
La forma de la matriz de co-ocurrencia obtenida de lo anterior es la siguiente
Vector de desplazamiento d = ( a , b ) d=(a,b)d=( un ,b ) Selección:
Debe seleccionarse de acuerdo con las características de distribución periódica de la textura,
si la textura es delgada, las compensacionesa, ba, bun ,b elige el valor más pequeño
El siguiente es un ejemplo de obtención de la matriz de co-ocurrencia de niveles de gris:
el tamaño de la imagen es 5 × 5 5\times 55×5 , el nivel de gris es3 33 , vector de desplazamientod = ( 1 , 1 ) d=(1,1)d=( 1 ,1 )
Información obtenida de la matriz de co-ocurrencia de niveles de gris:
- Elementos en la diagonal principal
Los elementos en la diagonal principal están desplazados ddBajo la condición de d
, el número de ocurrencias de la misma combinación de nivel de gris Dado que la textura tiene las características de que el nivel de gris es básicamente el mismo a lo largo de la dirección de la textura,
el tamaño de los elementos en la diagonal principal ayuda a juzgarla direcciónyla informaciónde espesor - Otros elementos excepto la diagonal principal
La distribución de otros elementos en relación con la diagonal principal puede representar discreción , que refleja el grosor
de la textura. Para texturas gruesas , los valores de la matriz de coocurrencia de nivel de gris se concentran cerca de la principal diagonal
Para una textura fina con los valores de la matriz de co-ocurrencia en escala de grises dispersos aquí y allá
Resumen de la matriz de coocurrencia de nivel de gris:
- En comparación con el histograma, la matriz de coocurrencia de niveles de gris refleja hasta cierto punto las características de distribución espacial de cada nivel de gris en la imagen de textura.
- Se pueden definir múltiples texturas mediante la matriz de co-ocurrencia de nivel de gris
- Se utiliza principalmente para la clasificación de texturas, menos para la segmentación de texturas.
Hay un problema:
- El vector de desplazamiento es un parámetro importante de la matriz de co-ocurrencia de niveles de gris, y su selección carece de un método efectivo
Percepción de alto nivel para visión artificial
visión por computador
La visión artificial es la capacidad de adquirir y procesar información simulando el mecanismo visual humano con una computadora.
Cómo se relaciona la visión por computadora con algunos vecindarios
- Procesamiento de imágenes
En el procesamiento de imágenes, los humanos son los mejores intérpretes En
la visión por computadora, las computadoras son los mejores intérpretes
La visión por computadora requiere procesamiento de imágenes - Gráficos por computadora Gráficos
por computadora: use imágenes bidimensionales para mostrar descripciones tridimensionales, como algún software de visualización en 3D Visión por computadora
: de imágenes bidimensionales a descripciones tridimensionales,
las dos son recíprocas - Reconocimiento de patrones
Se pueden aplicar muchos métodos de reconocimiento de patrones a la visión artificial. - Inteligencia artificial
La visión artificial es una rama de la inteligencia artificial
Geometría + Medida + Interpretación = Visión
Algunas aplicaciones de la visión artificial:
- predicción del comportamiento
- seguimiento del cuerpo
- reconstrucción 3D, etc
Teoría de la visión por computadora
Marco de computación visual Marr (Marr)
Acerca de Marr:
fundador de la visión por computadora, Marr combinó hallazgos de psicología, inteligencia artificial y neurofisiología.
Marco de computación visual de Marr:
la visión es una tarea de procesamiento de información con tres niveles
- Nivel 1: Teoría Computacional del Procesamiento de la Información
- Segundo Nivel: Algoritmos
- El tercer nivel: el mecanismo o hardware que implementa el algoritmo
Marr divide el proceso de devolver información de forma de una imagen en tres etapas de representación:
- boceto inicial
- mapa de 2,5 dimensiones
- modelo 3d
Teoría de la visión basada en la inferencia
La idea principal: solo en función de los datos de la imagen en sí, no puede proporcionar suficientes restricciones en la estructura del espacio del objeto correspondiente, es necesario agregar conocimiento previo
atención visual
En el procesamiento de información visual humana, algunos objetos destacados siempre se seleccionan rápidamente para
el procesamiento prioritario, mientras que otros objetos no destacados se ignoran o descartan.
Importancia de la investigación de la atención visual:
- Reduzca la complejidad computacional y mejore la eficiencia del procesamiento
- Deje que la computadora imite la selectividad y la iniciativa del ojo humano para mejorar la capacidad de filtrado de información
Clasificación y reconocimiento de imágenes
levemente
Detección de objetos en aprendizaje profundo
Introducción a la detección de objetos
La diferencia entre clasificación y detección:
- La clasificación consiste en clasificar una imagen en una determinada categoría en función de su contenido.
- La detección consiste en detectar la información contenida en la imagen (¿cuál es el contenido? ¿dónde? etc.)
Redes neuronales
levemente
método popular
método de dos etapas
El método de dos etapas divide la detección de objetivos en dos etapas:
- Generación de cajas de candidatos
Generar una serie de cajas de candidatos - Clasificación de cajas candidatas
Realice una clasificación objetivo/no objetivo en las cajas candidatas
Los métodos comunes de dos etapas son:
- Serie RCNN: RCNN, Fast-RCNN, Faster-RCNN
- FPN
- RetinaNet
- R-FCN
- Máscara RCNN
- RefinarDet
método de una sola etapa
El método de una sola etapa realiza la detección de objetivos directamente en la imagen sin generar cuadros de candidatos
Los métodos comunes de una etapa son:
- Serie YOLO
- Serie SSD
Método de dos etapas versus método de una etapa
Método de dos etapas: alta precisión, pero
velocidad relativamente baja Método de una etapa: alta velocidad, pero precisión relativamente baja
Segmentación semántica en aprendizaje profundo
súper píxel
Un superpíxel es una colección de una serie de píxeles, estos píxeles tienen características similares, como color y textura, y la distancia es relativamente cercana. Como se muestra en la
figura a continuación, la colección de píxeles en el área dentro de la línea blanca es un superpíxel.
segmentación semántica
La segmentación semántica consiste en asignar a cada píxel de la imagen una etiqueta de categoría (como: personas, automóviles, carreteras, árboles, etc.) La
siguiente figura es un ejemplo de segmentación semántica:
La segmentación semántica solo puede juzgar categorías, pero no puede distinguir individuos.Si
un píxel en la imagen de arriba está marcado en rojo, podemos saber que pertenece a la categoría de personas, pero si dos píxeles están marcados en rojo, no podemos distinguir si los dos píxeles están marcados en rojo. son de la misma persona
segmentación de instancias
En comparación con la detección de objetivos, la detección de objetivos proporciona el cuadro de destino (cuadro delimitador), mientras que la segmentación de instancias proporciona la máscara. En
comparación con la segmentación semántica, la segmentación de instancias no necesita marcar cada píxel, solo el borde del objeto de interés . Los individuos se pueden distinguir porque cada individuo tiene un contorno de color diferente
El método Mask-CNN es un algoritmo de segmentación de instancias
Tenga en cuenta que Mask-RCNN es un algoritmo de detección de objetivos, no lo confunda
El siguiente es un diagrama esquemático de la segmentación de instancias:
segmentación panorámica
La segmentación panóptica es una combinación de segmentación de instancias y segmentación semántica, que puede distinguir tanto clases como instancias dentro de clases.
Aquí hay un ejemplo de demostración:
Aplicaciones de Deep Learning en Segmentación
método totalmente supervisado
primeras ideas nuevas
- Método de reducción: este método es para realizar la segmentación en cada superpíxel
- Método completamente convolucional
método U-net
Método DeepLab
Método de campo aleatorio condicional similar a RNN
método SegNet
método PSPNet
Método RefineNet
Red GAN
método débilmente supervisado
método STC
método DSRG
Métodos L-Net y P-Net
método ORMAE