Compreensão de imagem de Xidian Zhike e notas de revisão de visão computacional (basicamente concluídas)

Diretório de artigos

erro corrigido

  1. Corrigido o erro que o bairro estava marcado como campo, 13 de junho de 2023 às 11h
  2. Correção das funções de cone e bastonete invertidas, 13 de junho de 2023 às 17h

Compreensão de Imagem e Visão Computacional Revisão Final

Muito obrigado Sr. Cai por fornecer o plano de revisão

Recomenda-se usar o computador para revisar o catálogo, pois o terminal móvel só pode exibir o catálogo abaixo do terceiro nível
ou usar o resumo da revisão de outros alunos. Se você não conhece os pontos de conhecimento, pode clicar neste blog para ver a introdução dos pontos de conhecimento correspondentes

Se você acha que é útil para você, não seja mesquinho com curtidas gratuitas em suas mãos, obrigado!

Devido à minha capacidade limitada, é inevitável que haja erros no texto. Se você encontrar, fique à vontade para corrigi-lo.

Tipo de pergunta e proporção de pontuação

Tipo de pergunta Índice de pontuação
rádio 10 × 2 10\vezes 210×2
preencha o espaço em branco 10 × 2 10\vezes 210×2
resposta curta 4 × 5 4\vezes 54×5
calcular 2 × 10 2\vezes 102×10
discutir 2 × 10 2\vezes 102×10

pontos de conhecimento

introdução

modo de percepção

Cinco sentidos: visão, audição, paladar, olfato, tato

Entre eles, a visão é o sistema mais informativo ( 60 % ∼ 90 % 60\%\sim 90\%60%90%

O conteúdo principal do processamento de imagem

  • Aquisição de informações de imagem
  • armazenamento de informações de imagem
  • Transmissão de informações de imagem
  • Processamento de informações de imagem
  • Saída e exibição de imagem

compreensão de imagem

A compreensão da imagem é a compreensão semântica das imagens

A compreensão da imagem é:
(1) Tomando as imagens como objetos (
2) Tomando o conhecimento como núcleo
Pesquisa: (1) Objetos
em imagens (2) Inter-relações entre objetos (3) Cenas em imagens (4) Como aplicar cenas


Três níveis de compreensão da imagem:

  1. Nível baixo: processamento de imagem
  2. Nível médio: análise de imagem
  3. Alto Nível: Entendimento de Imagem

O objetivo
insira a descrição da imagem aqui
da compreensão da imagem é o seguinte :

  • Processe imagens para atender às necessidades visuais e psicológicas das pessoas
  • Analisar e compreender objetos em imagens

Os componentes básicos de um sistema de compreensão de imagens:
insira a descrição da imagem aqui

Formulários

  • reconhecimento facial
  • Reconhecimento e análise de imagem
  • Condução assistida, condução inteligente
  • Diagnóstico de Imagem Médica
  • Edição de imagem, edição de vídeo

sistema visual

estrutura básica

Anatomicamente, consiste no globo ocular e no sistema nervoso óptico

  • globo ocular:
    • Sistema refrativo
      Córnea, lente, etc.
    • sistema fotossensível
      retina

Do ponto de vista da estrutura física: composto de sistema óptico , retina e via visual

  • Células visuais na retina ("seguindo o olho")
    • Cones : durante o dia, percepção de cores
    • Células bastonetes : noite, percepção de brilho

A figura a seguir é o diagrama da estrutura física do sistema de visão:
insira a descrição da imagem aqui

Características do olho humano

adaptação de brilho

A percepção de brilho do olho humano varia de acordo com as condições de iluminação , portanto, a percepção de brilho do olho humano é subjetiva

Não sei se você notou este fenômeno:
(1) À noite, quando você apenas apaga as luzes e vai dormir, seus olhos ficarão completamente escuros, mas depois de um tempo, você gradualmente verá claramente os objetos ao redor . Neste momento, entrando repentinamente em um ambiente escuro de um ambiente claro, o olho humano é relativamente menos sensível à percepção de brilho
(2) Será muito deslumbrante entrar repentinamente em um ambiente claro vindo de um ambiente escuro, mas será muito melhor depois de um tempo

inibição lateral

Neurônios excitantes atrás dos dedos inibem seus neurônios excitados adjacentes

É estimular um neurônio para excitá-lo e, em seguida, estimular os neurônios adjacentes para excitá-lo, e o neurônio excitado atrás dele terá um efeito inibitório sobre o neurônio excitado antes dele.

O fenômeno da inibição lateral: (não sei por que existe tal fenômeno)

  1. fenômeno um
    insira a descrição da imagem aqui

  2. fenômeno dois
    insira a descrição da imagem aqui

efeito de cinto mach

Refere-se à percepção subjetiva da visão onde aparecem listras ilusórias brilhantes ou escuras onde o brilho muda, conforme mostrado na figura a seguir:

insira a descrição da imagem aqui

Os efeitos da banda Mach são causados ​​pela supressão lateral

A explicação do efeito da banda Mach é que
o sistema visual humano possui um mecanismo para aumentar o contraste da borda

campo receptivo

Refere-se à área da retina onde a luz pode alterar a atividade deste neurônio

Por definição, o campo receptivo é uma área na retina.
Quando a luz atinge essa área, os neurônios serão excitados
e a luz fora do campo receptivo não terá efeito sobre o disparo do neurônio.

inércia visual

A percepção de brilho do olho humano não desaparecerá imediatamente com o desaparecimento do brilho do objeto , mas há um tempo de transição , que é a inércia visual

Uma aplicação da inércia visual é a projeção de filmes

visão esportiva

O tempo de reação é menor quando a luz é aplicada na fóvea do olho. Quanto mais longe da fóvea, maior o tempo de reação

Contornos subjetivos e ilusões espaciais

Perfil do supervisor:
insira a descrição da imagem aqui

Ilusão do Espaço:
insira a descrição da imagem aqui

modelo visual

Modelo de visão monocromática

O análogo mais simples do modelo monocromático é um filtro passa-baixa seguido por um filtro passa- alta

  • Filtro passa-baixo: simula o sistema óptico do olho humano
  • Filtro passa-alto: reflete o efeito da banda Mach causado pela supressão lateral
modelo de visão de cores

Três cores primárias de luz emitida: vermelho, verde, azul (RGB)

Três cores primárias de luz refletida: ciano, magenta, amarelo (CMY)

Qualquer outra cor pode ser feita misturando essas três cores

Análise de sinal de imagem

modelo de iluminação

  • luz ambiente
    luz solar
  • Reflexão difusa
    Reflexão de superfícies ásperas
  • reflexo do espelho
    reflexo do espelho

função de brilho

Função de brilho bidimensional:

  • I = f (x,y) I=f(x,y)EU=f ( x ,y )
    • x, yx,yx ,y é a coordenada do plano
    • III é intensidade de pixel

Uma função de brilho mais geral:

  • I = f ( x , y , z , λ , t ) I=f(x,y,z,\lambda,t)EU=f ( x ,y ,z ,eu ,t )
    • x , y , zx,y,zx ,y ,z é a coordenada espacial
    • λ \lambdaλ é o comprimento de onda da luz, com informação de cor
    • ttt é o tempo, representando a imagem em movimento
    • III é a intensidade do pixel

Propriedades das imagens digitais

resolução

Pixels por unidade de comprimento (polegadas)

escala de cinza

O número total de níveis de cinza contidos na imagem é chamado de nível de cinza

relação entre pixels

adjacência
  1. Vizinhanças (propriedades de pixels individuais)
    • 4 44 bairros
    • D \texto Dbairro D
    • 8 88 Bairros
  2. Adjacência (a relação entre dois pixels)
    Se um pixel está na vizinhança de outro pixel, os dois pixels são considerados adjacentes
    • 4 44 adjacentes
    • D \texto DD adjacência
    • 8 88 contíguos

Vizinhança primeiro, adjacência depois

conectividade

  1. Conexão
    Somente quando duas condições são atendidas pode ser chamada de conexão: uma é que os valores de cinza são semelhantes ; a outra é que dois pixels são adjacentes
    • 4 44 conexões
    • 8 88 conexões
    • m \texto mm -connect (conexão híbrida)
      pixelpppqqq m \texto mconexão m , desde queuma das
      1. Dois pixels 4 44 adjacentes
      2. dois pixels D \text DD é adjacente, mas seu4 44 bairros não se cruzam
  2. Adjacente
    Se dois pixels estiverem conectados, eles serão adjacentes a
    4 , 8 , m 4,8,\text m4 ,8 ,m adjacente
  3. caminho
    p ( x 0 , y 0 ) , q ( xn , yn ) p(x_0,y_0),q(x_n,y_n)p ( x0,y0) ,q ( ​​xn,yn) pode ser expresso como:
    L ( p , q ) = ( x 0 , y 0 ) → ( x 1 , y 1 ) → ( x 2 , y 2 ) → ⋯ → ( xn , yn ) L (p,q) =(x_0,y_0)\seta para a direita(x_1,y_1)\seta para a direita(x_2,y_2)\seta para a direita\cdots\seta para a direita(x_n,y_n)L ( p ,q )=( x0,y0)( x1,y1)( x2,y2)( xn,yn)
    seu ponto de imagem do meio( xi , yi ) (x_i,y_i)( xeu,yeu) dado ponto( xi − 1 , yi − 1 ) (x_{i-1},y_{i-1})( xeu - 1,yeu - 1) adjacente a
  4. conectado
    p, qp,qp ,Se q tem um caminho, é chamadop , qp,qp ,q está conectado
distância

Existem dois pixels p ( x , y ) , q ( s , t ) p(x,y),q(s,t)p ( x ,y ) ,q ( s ,t )

  1. Distância euclidiana
    DE ( p , q ) = ( x − s ) 2 + ( y − t ) 2 D_E(p,q)=\sqrt{(xs)^2+(yt)^2}DE( p ,q )=( xs )2+( yt )2
  2. Distância do bloco
    D 4 ( p , q ) = ∣ x − s ∣ + ∣ y − t ∣ D_4(p,q)=|xs|+|yt|D4( p ,q )=xs +yt
    D 4 = 1 D_4=1D4=O pixel de 1 é o pixel( x , y ) (x, y)( x ,y ) 4 vizinhança
  3. Distância da placa
    D 8 ( p , q ) = max ⁡ { ∣ x − s ∣ , ∣ y − t ∣ } D_8(p,q)=\max{\{|xs|,|yt|\}}D8( p ,q )=máximo{ xs ,yt }
    D8 = 1 D_8=1D8=O pixel de 1 é o pixel( x , y ) (x, y)( x ,y ) 8 vizinhança

Operações entre pixels

operação aritmética

Para imagens em tons de cinza , existem { + , − , × , ÷ } \{+,-,\times,\div\}{ + ,,× ,÷ } quatro operações

operação lógica

Para imagens binárias , existem {and, or, not} \{and, or, not\}{ com ,ou ,Não } três tipos de operações

operação de modelo

insira a descrição da imagem aqui

z = ∑ i = 1 9 wiziz=\sum\limits_{i=1}^9w_iz_iz=eu = 19ceuzeu

Representação de código de cadeia de limite

Existem dois tipos de chaincodes:

  • código de 4 correntes
    insira a descrição da imagem aqui

  • 8 chaincode
    insira a descrição da imagem aqui

código da cadeia original

insira a descrição da imagem aqui

O código de quatro cadeias é expresso como
M 4 = 10103322 M_4=10103322M4=10103322

O código da cadeia original tem invariância de tradução, mas não invariância de rotação e exclusividade

Chaincode normalizado

O código da cadeia original com o menor valor
insira a descrição da imagem aqui

M 4 = 01033221 M_4 = 01033221M4=01033221
Códigos diferenciais normalizados são invariantes à tradução e únicos, mas não invariantes à rotação

código diferencial

A fórmula de cálculo do código diferencial é:
bi = ( ai − ai − 1 ) mod 4 ou 8 b_i=(a_i-a_{i-1})\ \text{mod}\ 4\ \text{or}\ 8beu=( umeuaeu - 1mod 4 ou 8_ _    
insira a descrição da imagem aqui

M 4 = 33133030 M_4 = 33133030M4=33133030

Códigos diferenciais são invariantes de translação e invariantes de rotação, mas não únicos

código diferencial normalizado

O código de menor diferença
M 4 = 03033133 M_4=03033133M4=03033133

Códigos diferenciais normalizados têm invariância de translação, invariância de rotação e unicidade

A representação do número de forma do limite

O limite é representado por um código diferencial normalizado , que é a representação do número de forma do limite

Ordem da forma : comprimento da sequência

Sistemas lineares e invariantes de translação

Um sistema que satisfaz o teorema da homogeneidade e o teorema da superposição é chamado de sistema linear

  • Teorema da Homogeneidade: T [ ax ] = a T [ x ] T[ax]=aT[x]T [ ax ] _=um T [ x ]
  • Teorema da superposição: T [ x 1 + x 2 ] = T [ x 1 ] + T [ x 2 ] T[x_1+x_2]=T[x_1]+T[x_2]T [ x1+x2]=T [ x1]+T [ x2]

sistema invariante de tradução

  • y(i) = T [x(i)] y(i)=T[x(i)]você ( eu )=T [ x ( i )]y ( i − m ) = T [ x ( i − m ) ] y(im)=T[x(im)]você ( eum )=T [ x ( eum )]

Linearidade e invariância de translação são duas propriedades independentes , as duas não estão relacionadas

convolução

Um método útil para convolução discreta unidimensional é a multiplicação sem transporte , e o algoritmo específico refere-se a sinais e sistemas

Método de convolução discreta bidimensional
insira a descrição da imagem aqui

transformação de imagem

Por que há uma transformação:

  • Problemas que não podem ser resolvidos no domínio do tempo são facilmente resolvidos transformando-os em outros espaços, como o espaço no domínio da frequência da transformada de Fourier, que é conveniente para filtragem

transformação ortogonal

A forma normal de uma transformação ortogonal é:

  • 正变换
    G ( u ) = ∑ i = 0 N − 1 f ( x ) t ( x , u ) , u = 0 , 1 , ⋯ , N − 1 G(u)=\sum\limits_{i=0} ^{N-1}f(x)t(x,u),\ u=0,1,\cdots, N-1G ( você )=eu = 0N - 1f ( x ) t ( x ,você ) , você=0 ,1 ,,N1
    dos quaist ( x , u ) t(x, u)t ( x ,u ) é o kernel de transformação direta
  • 反变换
    f ( x ) = ∑ i = 0 N − 1 G ( u ) h ( x , u ) , x = 0 , 1 , ⋯ , N − 1 f(x)=\sum\limits_{i=0} ^{N-1}G(u)h(x,u),\ x=0,1,\cdots, N-1f ( x )=eu = 0N - 1G ( u ) h ( x ,você ) , x=0 ,1 ,,N1
    dos quaish ( x , u ) h(x, u)h ( x ,u ) é o kernel da transformação inversa

É chamada de transformação ortogonal porque:

  • t ( x , 0 ) , t ( x , 1 ) , ⋯ , t ( x , N − 1 ) t(x,0),t(x,1),\cdots,t(x,N-1)t ( x ,0 ) ,t ( x ,1 ) ,,t ( x ,NAs funções em 1 ) são ortogonais entre si
  • h ( 0 , u ) , h ( 1 , u ) , ⋯ , h ( N − 1 , u ) h(0,u),h(1,u),\cdots,h(N-1,u)h ( 0 ,você ) ,h ( 1 ,você ) ,,h ( N1 ,As funções em u ) são ortogonais aos pares

Quando o kernel de transformação direta bidimensional t ( x , y , u , v ) t(x,y,u,v)t ( x ,y ,você ,v )满足
t ( x , y , u , v ) = t 1 ( x , u ) t 2 ( y , v ) t(x,y,u,v)=t_1(x,u)t_2(y,v )t ( x ,y ,você ,v )=t1( x ,u ) t2( s ,v ) ,
diz-se que a transformação ortogonal temseparabilidade

Um conhecido:

  • Imagem de entrada N × NN\vezes NN×N matrizF \mathbf FF
  • Transformar N × NN\vezes NN×N matrizT \mathbf TT

Representação matricial da transformação ortogonal :

  • 正变换G = TFT \mathbf G=\mathbf T\mathbf F\mathbf TG=TFT
  • 逆变换F ^ = HGH \widehat{\mathbf F}=\mathbf H\mathbf G\mathbf HF =HGH
    ondeH \mathbf{H}H é a matriz de transformação inversa
    quandoH = T − 1 \mathbf{H}=\mathbf{T}^{-1}H=T ,F ^ = F \widehat{\mathbf F}=\mathbf FF =F
    H ≠ T − 1 \mathbf{H}\neq\mathbf{T}^{-1}H=T1 °,F ^ ≈ F \widehat{\mathbf F}\approx\mathbf{F}F F
transformada de Fourier
transformada discreta de cosseno

Transformada discreta de cosseno é uma forma especial de transformada discreta de Fourier

Vantagens: A transformada discreta de cosseno tem melhor densidade de agregação de energia no domínio da frequência do que a transformada discreta de Fourier

Uma aplicação: o algoritmo de compressão de imagem usado por imagens jepg é a transformada discreta de cosseno

transformada wavelet

A razão pela qual a transformada wavelet é proposta:
Para resolver o problema de que a transformada de Fourier não consegue distinguir o tempo em que cada componente de frequência aparece ao analisar um sinal não estacionário cuja frequência muda com o tempo

Da transformada de Fourier para a transformada wavelet, o seguinte processo foi experimentado:
Transformada de Fourier → \rightarrow transformada de Fourier em janela→ \rightarrow Transformada Wavelet

transformação de Walsh

Vantagens: Em comparação com a transformada de Fourier, a transformada de Walsh possui apenas a adição e subtração de números reais, mas nenhuma multiplicação de números complexos, o que torna a velocidade de cálculo rápida e o espaço de armazenamento é pequeno, o que é propício para a implementação de hardware e é adequado para processamento em tempo real e operações de dados em larga escala Tem apelo especial
Desvantagens: Compressão ineficiente , portanto, não tem muito uso prático

As regras de construção da matriz de Walsh:

  1. 2 × 2 2\vezes 22×2 kernel de transformação
    W 2 = [ 1 1 1 − 1 ] \mathbf{W}_2=\begin{bmatrix}1&1\\1&-1\end{bmatrix}C2=[111 1]

  2. 4 × 4 4\vezes 44×4 kernels de transformação
    insira a descrição da imagem aqui

    Preste atenção na observação e W 2 \mathbf{W}_2C2Relação

  3. 8 × 8 8\vezes 88×8 núcleos de transformação
    insira a descrição da imagem aqui

    Preste atenção na observação e W 4 \mathbf{W}_4C4Relação

Embora as regras de construção da matriz de Walsh não sejam tão óbvias, ainda existem algumas regras

Deve-se notar que os núcleos de transformação positiva e negativa da transformação de Walsh são os mesmos

transformação de Hadamard

Essencialmente, uma transformação de Walsh especialmente ordenada, de modo que os kernels de transformação direta e reversa são os mesmos

A regra de construção da matriz de Hadamard:

  1. 2 × 2 2\vezes 22×2 kernel de transformação
    H 2 = [ 1 1 1 − 1 ] \mathbf{H}_2=\begin{bmatrix}1&1\\1&-1\end{bmatrix}H2=[111 1]
  2. 4 × 4 4\vezes 44×4equação H 4 = [ H 2 H 2 H 2 − H 2 ] = [ 1 1 1 1 1 − 1 1 − 1 1 1 − 1 − 1 1 − 1 − 1 1 ] \begin{aligned}\mathbf {
    H4=[H2H2H2H2]= 1111111 1111 11111
  3. 8 × 8 8\vezes 88×8equação H ∗ = [ H 4 H 4 H 4 − H 4 ] \mathbf{H}_*=\begin{bmatriz}\mathbf H_4&\mathbf H_4\\\mathbf H_4&-\mathbf H_4\end{bmatriz} ;
    H=[H4H4H4H4]

Aprimoramento e Restauração de Imagem

melhoria de imagem

Finalidade do aprimoramento da imagem:

  • Melhore o efeito visual da imagem , melhore a clareza e facilite a observação e a análise
  • Melhore as partes de interesse e suprima as partes que não são de interesse
  • Facilita o processamento posterior por homem ou máquina

Recursos de aprimoramento de imagem:

  • Destaque artificialmente alguns detalhes na imagem e suprima outra parte do sinal
  • Processo por experiência e tentativa e erro
  • Não existe um padrão unificado de medição

Os métodos de aprimoramento de imagem podem ser divididos em método de domínio espacial e método de domínio de frequência

  • Método de domínio espacial processa pixels
    diretamente
  • Métodos de domínio de frequência operam
    em algum tipo de domínio de transformação
método do histograma
Equalização do histograma

Princípio: achate
o histograma cinza da imagem
insira a descrição da imagem aqui

O algoritmo pode ser dividido em três etapas:

  1. Calcular o histograma em tons de cinza de uma imagem
  2. Calcular probabilidade cumulativa
  3. Determinar a relação de mapeamento
  4. Atravesse toda a imagem pixel por pixel e transforme de acordo com a relação de mapeamento

Vamos entender melhor através de exemplos:

  1. O histograma de uma imagem é o seguinte
    insira a descrição da imagem aqui

  2. Calcule a probabilidade cumulativa de cada nível de cinza
    insira a descrição da imagem aqui

  3. Determinar a relação de mapeamento
    insira a descrição da imagem aqui

    Aqui está uma explicação de 3 3 na quinta linha e terceira coluna da tabela a seguir3 cálculo, a mesma razão para os outros

    (1) 0,44 × 7 = 3,08 0,44\vezes 7=3,080,44×7=3.08 , onde 7 é o nível de cinza da imagem8 88 menos1 11L-1 L-1eu1
    (2)3,08 3,083,08 éarredondadopara3 33 , o que significa que os pixels com escala de cinza de 1 na imagem original são alterados para pixels com escala de cinza de 3

  4. Percorra toda a imagem pixel a pixel, e faça as transformações de acordo com a relação de mapeamento.Como
    a imagem original não é fornecida no título, esta etapa não pode ser realizada. O cálculo desta etapa é trabalhoso e não será testado no exame. Você só precisa saber como encontrar a relação de mapeamento,
    mas pode encontrar o histograma transformado:

    Escala de cinza da imagem após a transformação 1 3 5 6 7
    O número de pixels no nível de cinza transformado 790 1023 850 985 448
    Histograma da imagem transformada 0,19 0,25 0,21 0,24 0,11
    Devido à operação de arredondamento e arredondamento, o resultado não é que as distribuições de probabilidade de cada nível de cinza sejam iguais, mas a diferença não é grande, aproximadamente igual

vantagem:

  • Pode efetivamente melhorar o contraste e a clareza da imagem

deficiência:

  • As informações de localização espacial dos pixels não são utilizadas
especificação do histograma

A especificação do histograma recebe um histograma de destino, o que você precisa fazer é encontrar a relação de mapeamento do histograma original para o histograma de destino

A diferença entre a especificação do histograma e a equalização do histograma é que
a equalização do histograma determinou o histograma alvo (um histograma plano)
e o histograma alvo da especificação do histograma é dado pelo título, que pode ser qualquer um histograma

A equalização do histograma pode ser considerada como uma especificação especial do histograma

O algoritmo específico não será descrito em detalhes, mas os seguintes exemplos podem ser calculados por você:
insira a descrição da imagem aqui

  1. 0,19 0,190,19 e0,15 0,150,15 é o mais próximo, então0 → 3 0\rightarrow 303
  2. 0,44 0,440,44 e0,35 0,350,35 é o mais próximo, então1 → 4 1\rightarrow 414
suavização de imagem

O objetivo da suavização de imagem: remover ou atenuar ruídos e contornos falsos na imagem

Método de matriz de modelo (máscara)

A matriz de modelo geralmente tem as seguintes regras:
M = 1 ∑ i = 1 9 mi [ m 1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 ] \mathbf M=\frac{1}{\sum_ {i =1}^9m_i}\begin{bmatriz}m_1&m_2&m_3\\m_4&m_5&m_6\\m_7&m_8&m_9\end{bmatriz}M=eu = 19meu1 m1m4m7m2m5m8m3m6m9

Deslize pela imagem através da matriz do modelo, preste atenção para coincidir o centro do modelo com o pixel correspondente
, calcule a soma ponderada e atribua o resultado ao pixel correspondente ao centro do modelo

O método da matriz de máscara possui os seguintes métodos:

  • Bairro Médio
    • 4 44 vizinhança média
      M = 1 4 [ 0 1 0 1 0 1 0 1 0 ] \mathbf M=\frac{1}{4}\begin{bmatrix}0&1&0\\1&0&1\\0&1&0\end{bmatrix}M=41 010101010
    • 8 88 vizinhança média
      M = 1 8 [ 1 1 1 1 0 1 1 1 1 ] \mathbf M=\frac{1}{8}\begin{bmatrix}1&1&1\\1&0&1\\1&1&1\end{bmatrix}M=81 111101111
  • Método de média ponderada
    • M = 1 5 [ 0 1 0 1 1 1 0 1 0 ] \mathbf M=\frac{1}{5}\begin{bmatriz}0&1&0\\1&1&1\\0&1&0\end{bmatriz};M=51 010111010
    • M = 1 9 [ 1 1 1 1 1 1 1 1 ] \mathbf M=\frac{1}{9}\begin{bmatriz}1&1&1\\1&1&1\\1&1&1\end{bmatriz};M=91 111111111
    • M = 1 16 [ 1 2 1 2 4 2 1 2 1 ] \mathbf M=\frac{1}{16}\begin{bmatriz}1&2&1\\2&4&2\\1&2&1\end{bmatriz}M=161 121242121
Método de média de imagens múltiplas (quadros)

O método de média de imagens múltiplas é coletar repetidamente várias imagens do mesmo objeto e, em seguida, tirar a média dessas imagens para reduzir o ruído

Este método é adequado para objetos estacionários

filtro passa-baixo

Este método é equivalente ao método da matriz de modelo

Sinais com mudanças bruscas, como ruído e bordas, são distribuídos em componentes de alta frequência.
O uso de um filtro passa-baixo pode filtrar alguns componentes de alta frequência até certo ponto, de modo a obter o efeito de redução de ruído, mas ao mesmo tempo filtrar algumas informações de borda

filtro mediano

Princípio: substitua a média local pela mediana local

Janelas comuns para filtragem mediana:

  • Linear
    insira a descrição da imagem aqui

  • quadrado
    insira a descrição da imagem aqui

  • cruzar
    insira a descrição da imagem aqui

  • diamante
    insira a descrição da imagem aqui

vantagem:

  • Tem um bom efeito de supressão no pulso de interferência e ruído de ponto
  • Boa fixação nas bordas
nitidez de imagem

Objetivo de afiação: para fortalecer o contorno do alvo

Geralmente, a imagem é suavizada primeiro e depois aprimorada , porque algumas informações de borda podem ser perdidas durante o processo de suavização, e a nitidez é para realçar a borda. A suavização da imagem e a nitidez podem remover o ruído da imagem

Afiação de sinal 1D:
insira a descrição da imagem aqui

Contanto que você entenda a nitidez unidimensional, será muito mais fácil entender a nitidez bidimensional.

Método de afiação de Laplace (método diferencial de segunda ordem)

Fórmula de afiação:
g ( x , y ) = f ( x , y ) − α ∇ 2 fg(x,y)=f(x,y)-\alpha\nabla^2 fg ( x ,y )=f ( x ,y )α 2f onde
:

  • g ( x , y ) g(x, y)g ( x ,y ) é a imagem nítida
  • f ( x , y ) f(x, y)f ( x ,y ) é a imagem original
  • ∇ 2f \nabla^2f2 ff ( x , y ) f(x, y)f ( x ,y ) diferencial de segunda ordem

O modelo de afiação de Laplace pode ser deduzido da fórmula:

  • 4 matriz livre
    M = [ 0 − α 0 − α 1 + 4 α − α 0 − α 0 ] \mathbf{M}=\begin{bmatriz}0&-\alpha&0\\-\alpha&1+4\alpha&-\; alfa\\0&-\alfa&0\end{bmatriz}M= 0um0um1+4 a- um0um0
  • 8 matriz livre
    M = [ − α − α − α − α 1 + 8 α − α − α − α − α ] \mathbf{M}=\begin{bmatrix}-\alpha&-\alpha&-\alpha\\; -\alpha&1+8\alpha&-\alpha\\-\alpha&-\alpha&-\alpha\end{bmatrix}M= umum- umum1+8 a- umumum- um
  • outros modelos
    insira a descrição da imagem aqui

Pode-se ver no modelo acima que as características do modelo de nitidez de Laplace são: a soma
de todos os elementos da matriz é 1

Deve-se notar que o movimento no modelo (3x3) começa na segunda linha e segunda coluna da imagem, não na primeira linha e primeira coluna. Como as bordas ao redor da imagem geralmente não são processadas

Método de nitidez do filtro passa-alto

Como mencionado anteriormente, as informações de borda geralmente estão no segmento de alta frequência; portanto, o que resta depois que a imagem passa pelo filtro passa-alto é a informação de borda

Filtros passa-alto comuns são:

  • filtro Butterworth
  • filtro passa alta ideal
filtragem homomórfica

Uma imagem f ( x , y ) f(x, y)f ( x ,y ) pode ser decomposto em:

  • Quantidade incidente i ( x , y ) i(x,y)eu ( x ,y )
    O componente incidente é a luz incidente, sua mudança é pequena e relativamente uniforme e ocupa principalmente componentes de baixa frequência,
    como a luz solar
  • Componente de reflexão r ( x , y ) r(x, y)r ( x ,y )
    O componente de reflexão é a luz refletida, que é determinada pela natureza do objeto e muda muito, ocupando o componente de alta frequência.
    Por exemplo, a luz refletida pelo objeto iluminado pela luz solar contém as informações de contorno da borda do objeto e muda muito

A ideia da filtragem homomórfica é: comprimir i ( x , y ) i(x,y)eu ( x ,y ) , r aprimorado( x , y ) r(x, y)r ( x ,y )

restauração de imagem

O objetivo da restauração da imagem: eliminar ou aliviar a degradação ou degradação da qualidade da imagem causada no processo de aquisição e transmissão da imagem e restaurar a aparência original da imagem

  • fenômeno de degradação
    • Manifestado como: desfoque, distorção, ruído, etc.
    • Causas
      Ruído do sensor, câmera desfocada, movimento relativo entre o objeto e o equipamento da câmera, turbulência atmosférica aleatória, diferença de fase do sistema óptico, dispersão da fonte de luz ou raios de imagem, etc.

A degradação da imagem pode ser abstraída nos seguintes modelos:

  • Modelo sem ruído
    insira a descrição da imagem aqui

    g ( x , y ) = f ( x , y ) ∗ h ( x , y ) g(x,y)=f(x,y)*h(x,y)g ( x ,y )=f ( x ,y )h ( x ,y )

  • Considere o modelo de ruído
    insira a descrição da imagem aqui

    时域公式
    g ( x , y ) = f ( x , y ) ∗ h ( x , y ) + n ( x , y ) g(x,y)=f(x,y)*h(x,y) +n(x,y)g ( x ,y )=f ( x ,y )h ( x ,y )+n ( x ,y )
    长域公式
    G ( u , v ) = F ( u , v ) H ( u , v ) + N ( u , v ) G(u,v)=F(u,v)H(u,v) +N(u,v)G ( você ,v )=F ( u ,v ) H ( u ,v )+N ( u ,v )

O princípio da restauração da imagem:
imagem degradada conhecida g ( x , y ) g(x,y)g ( x ,y ) , obtenhah ( x , y ) h(x, y)h ( x ,y ) en ( x , y ) n(x, y)n ( x ,y ) e, em seguida, encontre a imagem originalf ( x , y ) f(x,y)f ( x ,y ) estimativaf ^ ( x , y ) \widehat{f}(x,y)f ( x ,y )

Os métodos podem ser divididos em:

  • recuperação irrestrita
  • método de filtragem inversa
  • Recuperação restrita
recuperação irrestrita

Do modelo de degradação g = f ∗ h + ng=f*h+ng=fh+n , pode-se ver
que o ruídon = g − f ∗ hn=gf*hn=gfh , ondeg , f , hg,f,hg ,f ,h conhecido

O princípio da recuperação irrestrita é descobrir o f ^ \widehat f estimadof Seja
ruído ∣ ∣ n ∣ ∣ 2 = ∣ ∣ g − f ^ ∗ h ∣ ∣ 2 ||n||^2=||g-\widehat f*h||^2∣∣ n 2=∣∣ gf h 2 mínimo

método de filtragem inversa

A partir do modelo de degradação no domínio da frequência G = F ⋅ H + NG=F\cdot H+NG=FH+N,可知
GH = F + NH \frac{G}{H}=F+\frac{N}{H}HG=F+Hn


F ^ ≈ GH = F + NH \widehat F\approx \frac{G}{H}=F+\frac{N}{H}F HG=F+Hn

Recuperação restrita

um pouco

detecção de borda

Classificação das arestas:

  • pisou
    insira a descrição da imagem aqui

  • forma do telhado
    insira a descrição da imagem aqui

A ideia básica da detecção de borda:
insira a descrição da imagem aqui

Pela figura, a aresta é:

  • pontos extremos da primeira derivada
  • 0 ponto de valor da segunda derivada

Portanto, para obter informações de borda, é necessário diferenciar a imagem

As etapas básicas da detecção de borda:
insira a descrição da imagem aqui

  • A filtragem
    é um filtro passa-baixo. Como a derivada é sensível ao ruído, é necessário filtrar o ruído primeiro
  • O aprimoramento
    perderá algumas informações de borda durante a filtragem e a borda precisa ser aprimorada
  • Existem muitos pontos na imagem de detecção
    com magnitudes de gradiente relativamente grandes, e esses pontos não são todos bordas em um campo de aplicação específico, então algum método deve ser usado para determinar quais pontos são pontos de borda

Método do Operador da Primeira Derivada

Método de gradiente ortogonal

Princípio; calcule as derivadas de primeira ordem nas direções horizontal e vertical, depois sintetize o gradiente e use o método de limite de amplitude para binarizar o gradiente e a imagem obtida é um mapa de borda

Modelo de gradiente:

  • Seja
    W h = [ 0 0 0 − 1 1 0 0 0 0 ] \mathbf W_h=\begin{bmatriz}0&0&0\\-1&1&0\\0&0&0\end{bmatriz};Ch= 010010000
  • Indicador
    W v = [ 0 − 1 0 0 1 0 0 0 0 ] \mathbf W_v=\begin{bmatriz}0&-1&0\\0&1&0\\0&0&0\end{bmatriz};Cv= 000110000

Obtenha as derivadas horizontal e vertical:
G h = F ∗ W h G v = F ∗ W v \begin{aligned}\mathbf G_h=\mathbf F*\mathbf W_h\\ \mathbf G_v=\mathbf F*\mathbf W_v \ end{alinhado}Gh=FChGv=FCv

Gradiente Sintético:

  • G = G h 2 + G v 2 (1) \mathbf G=\sqrt{\mathbf G_h^2+\mathbf G_v^2}\tag{1}G=Gh2+Gv2 ( 1 )
  • G = ∣ G h ∣ + ∣ G v ∣ (2) \mathbf G=|\mathbf G_h|+|\mathbf G_v|\tag{2}G=Gh+Gv( 2 )
  • G = max ⁡ { ∣ G h ∣ + ∣ G v ∣ } (3) \mathbf G=\max{\{|\mathbf G_h|+|\mathbf G_v|\}}\tag{3}G=máximo{ Gh+Gv}( 3 )

Binarização do método de limiar de amplitude:
B ( m , n ) = { 1 , G ( m , n ) ≥ b 0 , else \mathbf B(m,n)=\begin{cases}1,&G(m,n) \geq b\\0,&\text{else}\end{casos}B ( m ,n )={ 1 ,0 ,G ( m ,n )boutra coisa

Aqui está um exemplo do método de gradiente ortogonal:
insira a descrição da imagem aqui

Método do operador de gradiente de Roberts

O método do operador de gradiente de Roberts é semelhante ao método de gradiente ortogonal, exceto que as derivadas direcionais do canto superior esquerdo e do canto superior direito são calculadas separadamente.

Modelo para o método do operador de gradiente de Roberts:

  • Indique W
    h = [ − 1 0 0 0 1 0 0 0 0 ] \mathbf W_h=\begin{bmatriz}-1&0&0\\0&1&0\\0&0&0\end{bmatriz};Ch= 100010000
  • Então
    W v = [ 0 0 − 1 0 1 0 0 0 0 ] \mathbf W_v=\begin{bmatriz}0&0&-1\\0&1&0\\0&0&0\end{bmatriz};Cv= 000010100

Veja a seguir um exemplo de detecção do operador Roberts:
insira a descrição da imagem aqui

Método operador de gradiente suave (método de diferença média)

A diferença entre o método de diferença média e o método de gradiente ortogonal é:
o método de diferença média primeiro calcula a média e depois calcula a derivada , e há um processo de média adicional, que pode suprimir o ruído até certo ponto

Método operador de gradiente Prewitt (método de diferença de média)

Modelo para o método do operador de gradiente Prewitt:

  • Seja
    W h = 1 3 [ − 1 0 1 − 1 0 1 − 1 0 1 ] \mathbf W_h=\frac{1}{3}\begin{bmatriz}-1&0&1\\-1&0&1\\-1&0&1\end{ bmatriz}Ch=31 11 1000111
  • Forma
    W v = 1 3 [ − 1 − 1 − 1 0 0 0 1 1 1 ] \mathbf W_v=\frac{1}{3}\begin{bmatrix}-1&-1&-1\\0&0&0\\1&1&1\ fim{bmatriz}Cv=31 101101101
Método do operador Sobel (método da diferença da média ponderada)

Modelo do método do operador Sobel:

  • Seja
    W h = 1 4 [ − 1 0 1 − 2 0 2 − 1 0 1 ] \mathbf W_h=\frac{1}{4}\begin{bmatriz}-1&0&1\\-2&0&2\\-1&0&1\end{ bmatriz}Ch=41 12 1000121
  • A função
    W v = 1 4 [ − 1 − 2 − 1 0 0 0 1 2 1 ] \mathbf W_v=\frac{1}{4}\begin{bmatrix}-1&-2&-1\\0&0&0\\1&2&1 \ fim{bmatriz}Cv=41 101202101

Como mencionado acima, a redução de ruído também perderá algumas informações de borda ao mesmo tempo, mas devido ao efeito de ponderação do método do operador sobel, a borda obtida por ele é mais clara do que o operador prewitt

Aqui estão exemplos de detecção prewitt e detecção sobel:
insira a descrição da imagem aqui

método gradiente direcional

O método de gradiente de direção pode obter a direção da borda enquanto detecta a borda

O princípio é:
encontre a derivada direcional da imagem em diferentes direções, tome a direção com o maior valor de módulo como a direção da aresta e esse valor é a força da aresta

Geralmente, as derivadas direcionais em oito direções são calculadas e o modelo é o seguinte:
insira a descrição da imagem aqui

Aqui está um exemplo do método de gradiente direcional:
insira a descrição da imagem aqui

operador astuto

Etapas do operador sagaz:

  1. Aplique filtragem gaussiana para suavizar a imagem com o objetivo de remover o ruído

  2. Calcule o gradiente (primeira derivada) da imagem
    usando o seguinte para verificar a imagem original F \mathbf FF realiza a convolução para obter o gradiente horizontalG h \mathbf G_hGh, gradiente vertical G v \mathbf G_vGv

    • Seja
      W h = 1 2 [ − 1 1 − 1 1 ] \mathbf W_h=\frac{1}{2}\begin{bmatriz}-1&1\\-1&1\end{bmatriz}Ch=21[1 111]
      G h = F ∗ W h \mathbf G_h=\mathbf F*\mathbf W_hGh=FCh
    • Forma
      W v = 1 2 [ − 1 − 1 1 1 ] \mathbf W_v=\frac{1}{2}\begin{bmatrix}-1&-1\\1&1\end{bmatrix}Cv=21[1111]
      G v = F ∗ W v \mathbf G_v=\mathbf F*\mathbf W_vGv=FCv

    A matriz do módulo gradiente é obtida pela seguinte fórmula:
    G = G h 2 + G v 2 \mathbf G=\sqrt{\mathbf G_h^2+\mathbf G_v^2}G=Gh2+Gv2
    A matriz do argumento gradiente (direção) é obtida pela seguinte fórmula:
    θ = arctan ⁡ G v G h \mathbf \theta=\arctan\frac{\mathbf G_v}{\mathbf G_h}eu=arctanGhGv

  3. Aplicando supressão não máxima (NMS) para eliminar a detecção falsa de borda

    1. Discretize a direção do gradiente em 8 direções. As 8
      direções são 0 , 45 , 90 , 135 , 180 , 225 , 270 , 315 0,45,90,135,180,225,270,3150 ,45 ,90 ,135 ,180 ,225 ,270 ,315 graus
      O método é ver qual dos 8 valores a direção do gradiente está mais próxima e atribuir o valor à direção do gradiente.
      Por exemplo, se a direção do gradiente de um pixel for 125,122 graus, atribua-a a 135 graus.
    2. Compare este pixel com os pixels na direção positiva e negativa de sua direção de gradiente
    3. Se o módulo de gradiente deste pixel for o maior, mantenha-o, caso contrário, defina-o como 0
  4. Aplique o método de limite duplo para detectar e conectar os limites.
    Defina dois limites (um grande e um pequeno) para binarizar o mapa de gradiente para obter um mapa de borda de limite alto e um mapa de borda de limite baixo. O mapa de borda de limite alto é relativamente intermitente
    . Pesquisando a borda de limite baixo A vizinhança 8 do gráfico para preencher os pontos de interrupção do gráfico de borda de limite alto para torná-lo contínuo

Veja a seguir um exemplo de uso do operador Canny para encontrar a aresta:
insira a descrição da imagem aqui

Método do Operador de Segunda Derivada

Como o nome indica, o método do operador de derivada de segunda ordem é usar o ponto onde a derivada de segunda ordem da imagem é 0 para obter informações de borda. Observe que nem
todos os pontos com um valor de derivada de segunda ordem igual a 0 são pontos de borda .

método laplaciano

Este método foi mencionado ao falar sobre afiação, se você esqueceu, clique no portal

vantagem:

  • Invariância isotrópica , linear e única
  • Bom efeito de detecção em pontos isolados e segmentos de linha

deficiência:

  • Sensível ao ruído , tem um duplo efeito de reforço no ruído, porque deriva duas vezes
  • Incapaz de detectar a direção da borda, muitas vezes resultando em bordas de pixel duplo

Aqui está um exemplo de como encontrar um gráfico de borda com o Laplaciano:
insira a descrição da imagem aqui

método do operador LoG

O princípio do método do operador LoG (laplaciano de um gaussiano):
primeiro use o operador gaussiano (filtro passa-baixo) para suavizar a imagem (redução de ruído) e, em seguida, use o operador laplaciano para detectar a borda,
também conhecido como Marr operador

O seguinte é um exemplo de localização de um mapa de arestas pelo operador LoG:
insira a descrição da imagem aqui

O seguinte é um exemplo de localização de arestas para todos os operadores mencionados acima (exceto astuto):
insira a descrição da imagem aqui

Segmentação de imagem

Definição de Segmentação de Imagem :
Dividir a imagem (configurar) RRR é dividido emvazios(sub-regiões) quenão se sobrepõemR 1 , R 2 , ⋯ , R n R_1,R_2,\cdots,R_n R1,R2,,Rn
R i , i = 1 , 2 , ⋯ , n R_i,\ i =1,2,\cdots,nReu, eu=1 ,2 ,,n éuma região conexa

A área conectada é uma área na qual os valores de cinza dos pixels são semelhantes e a conectividade dos pixels de referência é

O objetivo da segmentação de imagem :

  • Divida a imagem em vários subconjuntos de acordo com certas regras
  • Localize a posição do objeto de interesse na imagem

Segmentação de imagens com base em recursos :

  • escala de cinza ou cor
    insira a descrição da imagem aqui

  • limite
    insira a descrição da imagem aqui

  • textura
    insira a descrição da imagem aqui

  • Semântica
    Conforme mostrado na figura abaixo, a semântica baseada em carros, árvores, estradas, etc.
    insira a descrição da imagem aqui

A segmentação de imagem é baseada em suposições :

  • Suposição de similaridade
    , as características de uma certa parte do objeto dentro da região são semelhantes ou iguais
  • Suposição de descontinuidade
    , grandes diferenças nas características entre partes de objetos diferentes entre regiões

A ideia básica da segmentação de imagem :

  • Do simples ao difícil, segmentação nível a nível : primeiro separe o objetivo principal do todo e considere os detalhes
  • Controle o plano de fundo, reduza a complexidade
  • Concentre-se no objeto de interesse para reduzir a interferência de componentes irrelevantes

O seguinte é uma combinação de reconhecimento de placa de carro para entender as ideias básicas de segmentação de imagem:

  1. Extrair contorno
    Obtenha as informações de contorno da imagem, o que ajuda a separar o alvo principal do todo
  2. Localização da placa
    Localize a posição do alvo principal na imagem
  3. Foco de Reconhecimento de Placas de Veículos
    nos Objetivos Primários

Escopo da pesquisa de segmentação de imagem :

  • algoritmo de segmentação
  • Métodos para avaliar algoritmos de segmentação

Problemas na segmentação de imagens :

  • Não existe um método universal, algoritmos diferentes são necessários para resolver problemas diferentes
  • Longe de alcançar o efeito de segmentação do sistema visual humano

O principal algoritmo de segmentação de imagem :

  • Algoritmo de segmentação baseado em limite
  • Algoritmo de segmentação baseado em borda
  • Algoritmo de segmentação baseado em região
  • Algoritmo de segmentação baseado em morfologia matemática

Algoritmo de segmentação baseado em limite

O princípio do algoritmo de segmentação baseado em limite:
use a diferença entre o fundo e o valor de cinza alvo para selecionar um adequado para separá-lo

vantagem:

  • simples e rápido
  • A fronteira de uma região fechada e conectada sempre pode ser obtida

deficiência:

  • Adequado apenas para situações em que há um forte contraste entre o alvo e o fundo
  • Aplicável apenas a planos de fundo e objetos com um único valor de cinza
método do histograma

O método do histograma é aplicável no caso em que o histograma da imagem obviamente tem picos múltiplos.
No caso em que a imagem mostra picos duplos:
insira a descrição da imagem aqui

Neste momento, selecione o valor de cinza TT correspondente ao fundo do picoT é usado como um limite para separar o fundo do alvo.
A expressão matemática é:
g ( x , y ) = { 1 , f ( x , y ) ≥ T 0 , f ( x , y ) < T g(x ,y)=\ begin{cases}1,&f(x,y)\geq T\\0,&f(x,y)<T\end{cases}g ( x ,y )={ 1 ,0 ,f ( x ,y )Tf ( x ,y )<T

A figura a seguir mostra o caso de três picos, e mais picos são semelhantes:
insira a descrição da imagem aqui

Seja
g ( x , y ) = { c 1 , f ( x , y ) ≤ T 1 c 2 , f ( x , y ) ≤ T 2 c 3 , f ( x , y ) > T 2 g( x,y )=\begin{case}c_1,&f(x,y)\leq T_1\\c_2,&f(x,y)\leq T_2\\c_3,&f(x,y)>T_2\end{cases } }g ( x ,y )= c1,c2,c3,f ( x ,y )T1f ( x ,y )T2f ( x ,y )>T2

deficiência:

  • Devido à influência do ruído, a seleção do valor inferior como limite não é o valor esperado
  • As informações de espaço de pixel não são usadas, apenas as informações de escala de cinza são usadas
  • Os requisitos para a imagem são mais rígidos, por exemplo, o histograma deve ter obviamente vários picos
método de limite ideal

Conforme mencionado acima, o método do histograma escolhe a parte inferior do limite, pois o limite não é o melhor limite,
a imagem a seguir pode ser bem refletida
insira a descrição da imagem aqui

O método de limite ideal é selecionar o nível de cinza cuja densidade de probabilidade do fundo é igual ao valor da função de densidade de probabilidade do alvo como limite.

vantagem:

  • A segmentação é mais precisa do que o método de histograma

deficiência:

  • É difícil obter a curva da função de densidade de probabilidade e uma grande quantidade de estatísticas é necessária para obter
método de iteração média

Etapas do método de iteração média:

  1. Escolha um limite estimado inicial TTT
    Este limite pode ser usado com o valor médio de cinza da imagem
  2. Use este limite para dividir a imagem em duas partes R 1 R_1R1e R 2 R_2R2
  3. Calcular R 1 R_1 respectivamenteR1e R 2 R_2R2A média de μ 1 \mu_1m1μ 2 \mu_2m2
  4. Selecione novamente o limite T = μ 1 + μ 2 2 T=\frac{\mu_1+\mu_2}{2}T=2m1+ m2
  5. Repita os passos 2 a 4 até μ 1 \mu_1m1μ 2 \mu_2m2não muda mais

O método da iteração média é um caso especial do método da partição ótima

Suponha que pt ( z ) , pb ( z ) p_t(z),p_b(z)pt( z ) ,pb( z ) são as funções de densidade de probabilidade das distribuições alvo e cinza de fundo, respectivamente,θ \thetaθ é a razão do pixel de destino para todo o pixel da imagem,
então a função de densidade de probabilidade da distribuição da imagem ép ( z ) = θ pt ( z ) + ( 1 − θ ) pb ( z ) p(z)=\ theta p_t(z)+ (1-\theta) p_b(z)p ( z )=θ pt( z )+( 1eu ) pb( z )
pt ( z ) , pb ( z ) p_t(z),p_b(z)pt( z ) ,pb( z ) é uma função de distribuição normal, a média éμ 1 , μ 2 \mu_1,\mu_2m1,m2, a variação é σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2p12,p22
pt(z) = p_t(z)=pt( z )=

método de variância entre classes

O princípio do método de variância entre classes:
procurando um limite TTT faz a segmentação resultarR 1 , R 2 R_1,R_2R1,R2Satisfaça a variação mínima dentro da classe de valor cinza e a variação máxima entre as classes

Veja a seguir uma comparação de métodos com base na segmentação de limite:
insira a descrição da imagem aqui

Segmentação com base na região

método de crescimento da região

Princípio: Combine pixels semelhantes para formar uma área segmentada
insira a descrição da imagem aqui

  1. A partir de um "pixel semente", compare a semelhança de seus pixels vizinhos e, se for semelhante, adicione pixels semelhantes à área de crescimento
  2. Repita as etapas acima até que nenhum pixel seja adicionado à área de crescimento

De acordo com diferentes critérios de similaridade, pode ser dividido em:

  • Método de crescimento simples , pixel + pixel
    Compare o valor cinza do ponto de crescimento (ponto na área de crescimento) com o ponto em sua vizinhança , se a diferença entre eles for menor que um determinado limite, adicione o ponto de vizinhança à área de crescimento
    ie∣ f ( m , n ) − f ( s , t ) ∣ < T |f(m,n)-f(s,t)|<Tf ( m ,n )f ( s ,t ) <T其中
    f ( s , t ) f(s,t)f ( s ,t ) é o valor de cinza do ponto de crescimento
    f ( m , n ) f(m,n)f ( m ,n ) é o valor de cinza do ponto de vizinhança
    TTT é uma forte dependência do limiar
    no ponto de semente
  • Método de crescimento centróide , região + pixel Compare o valor cinza médio de todos os pontos
    na região crescente com o valor cinza dos pontos vizinhos , se a diferença for menor que um determinado limite, adicione os pontos vizinhos à região crescente, ou seja, ∣ f ( m , n ) − f ( s , t ) ‾ ∣ < T |f(m,n)-\overline{f(s,t)}|<T
    f ( m ,n )f ( s ,t )<T onde
    f ( s , t ) ‾ \overline{f(s,t)}f ( s ,t )é o valor médio de cinza de todos os pontos na área de crescimento
    f ( m , n ) f(m,n)f ( m ,n ) é o valor cinza TTdo ponto de vizinhança
    T é o limiar
    para reduzir a dependência do ponto de semente
  • Método de crescimento misto , área + área
    Compare os valores médios de cinza de todos os pontos nas duas áreas e, se a diferença for menor que um determinado limite, junte-os. Ou seja,
    f ‾ 1 − f ‾ 2 ∣ < T |\overline f_1- \overline{f}_2|<Tf1f2<T onde
    f 1 ‾ \overline{f_1}f1é o valor cinza médio f ‾ 2 \overline f_2 de todos os pontos na primeira área de crescimento
    f2é o valor médio de cinza TT de todos os pontos na segunda área de crescimento
    T é o limite
    para aumentar o anti-interferência

vantagem:

  • cálculo simples

deficiência:

  • A interação manual é necessária para obter pontos de semente, e cada área segmentada deve ser implantada com um ponto de semente
  • suscetível a ruído

O seguinte é um exemplo de demonstração do método de cultivo de região:
insira a descrição da imagem aqui

divisão-fusão

Princípio: primeiro decomponha a imagem em diferentes regiões e depois mescle-as de acordo com a semelhança
insira a descrição da imagem aqui

  1. Determine o critério de medição de similaridade regional, ou seja, o critério de divisão e mesclagem.
    Você pode escolher o erro quadrático médio
    EA = 1 NA ∑ ( m , n ) ∈ A [ f ( m , n ) − μ A ] 2 μ A = 1 NA ∑ ( m , n ) ∈ A f ( m , n ) E_A=\frac{1}{N_A}\soma\limites_{(m,n)\in A}[f(m,n)-\mu_A ]^2\\\mu_A= \frac{1}{N_A}\soma\limits_{(m,n)\in A}f(m,n)EA=NA1( m , n ) A[ f ( m ,n )mA]2mA=NA1( m , n ) Af ( m ,n )
    Entre elesEA E_AEApara área AAO erro quadrático médio do valor de cinza de A
    μ A \mu_AmApara área AAO valor médio de cinza de A
    é NA N_ANApara área AAO número de pixels de A
  2. Quando uma região da imagem é diferente, divida-a em quatro regiões iguais
    Se o erro quadrático médio for usado como critério, quando
    o erro quadrático médio de uma única região EA > a E_A>aEA>uma vez (comoa = 1,5 a = 1,5a=1.5 ) dividir
  3. Quando as áreas adjacentes são semelhantes, mescle-as
    Se o erro quadrático médio for usado como critério, então
    quando o erro quadrático médio de duas áreas adjacentes E ( A + B ) ≤ b E_{(A+B)}\leq bE( A + B )b (comob = 2,5 b = 2,5b=2.5 ) Mesclar
  4. Repita as etapas 2 a 3 até que nenhuma divisão ou fusão esteja em andamento

Aqui está uma demonstração do método split-merge:
insira a descrição da imagem aqui

Algoritmo de Segmentação Baseado em Bacias Morfológicas

princípio:

  • Qualquer imagem em tons de cinza pode ser considerada como um mapa topográfico, geralmente um mapa de gradiente
    de uma imagem em tons de cinza
  1. Faça um furo a partir da posição mínima de cada área e, ao mesmo tempo , injete água uniformemente pelo orifício
    Observe que cada área possui um orifício
  2. Quando a água em diferentes áreas estiver prestes a se acumular, construa o limite alto para evitar que se acumule
    . Tenha cuidado para construir a barragem alta para evitar o acúmulo, caso contrário, o limite será inundado
  3. O último limite da barragem é a linha divisória

Características do resultado da segmentação:

  • Cada região é fechada, não há interseção entre as regiões
  • A largura da borda é de um pixel

vantagem:

  • A transformação pode localizar com precisão a borda, a operação é simples e fácil de processar em paralelo

deficiência:

  • É fácil produzir segmentação excessiva e produzir um grande número de áreas pequenas
    porque a imagem de entrada geralmente é um mapa de gradiente, e o mapa de gradiente é suscetível a ruído.
    As seguintes melhorias podem ser feitas:
    • Pré-processamento de imagem: redução de ruído suave
    • Adicionar restrições ao dividir
    • Reprocessando os resultados da segmentação

A seguir, um exemplo de demonstração de um algoritmo de segmentação baseado em divisor de águas morfológico:
insira a descrição da imagem aqui

Processamento Matemático de Imagens Morfológicas

O processamento de imagens de morfologia matemática é um novo método de processamento e análise de imagens. A
linguagem que ele usa é a teoria dos conjuntos
, o que significa: suas operações são definidas por operações de conjunto.
As operações de conjuntos não são descritas aqui. Meu blog tem Sobre a explicação do coleção, se você esquecer, pode ir ver você mesmo, o portal

O conteúdo envolvido a seguir considera apenas imagens binárias

Fundamental

insira a descrição da imagem aqui

  • O elemento estrutural é um modelo, ele processa a imagem movendo-se constantemente na imagem e fazendo operações definidas, ele não é necessariamente um polígono regular

operações básicas

corrosão

A imagem a seguir é usada para demonstrar visualmente a operação de erosão:
insira a descrição da imagem aqui

Pode-se ver na figura que a operação de erosão é, na verdade, alinhar a origem do gabarito com o ponto correspondente na imagem. Se todos os pontos com valor 1 no gabarito tiverem valor 1 no ponto correspondente na imagem imagem, o valor cinza do ponto de alinhamento na imagem é dado. O valor do grau é 1, caso contrário, 0
pode ser comparado à operação AND dos conjuntos
A ⊖ BA\ominus BAB representa o elemento estruturanteBBB corrói a imagemAAA

expandir

A imagem a seguir é usada para demonstrar visualmente a operação de erosão:
insira a descrição da imagem aqui

Percebe-se pela figura que a operação de expansão é na verdade alinhar a origem do template com o ponto correspondente na imagem. Se houver um ponto com valor 1 no template e o valor do ponto correspondente no imagem também é 1, o valor de cinza do ponto de alinhamento na imagem é fornecido. O valor de grau é 1, caso contrário, atribuir 0
pode ser comparado à operação OR definida
A ⊕ BA\oplus BAB representa o elemento estruturanteBBB imagem infladaAAA

Observe que o resultado da erosão e dilatação é dar ao pixel na imagem original uma posição correspondente à origem do elemento estruturante

operação aberta

A operação de abertura consiste em utilizar o elemento estrutural BBB para imagemAAA corrói primeiro e depois se expande, denotado comoA ∘ BA\circ BAB
A ∘ B = ( A ⊖ B ) ⊕ BA\circ B=(A\ominus B)\oplus BAB=( AB )O significado
operação de abertura de B é: quando B gira dentro do limitede A, o ponto mais distante que o ponto em B pode alcançar, conforme mostrado na figura abaixo
insira a descrição da imagem aqui

O papel da operação aberta :
para suavizar o contorno e remover pequenos pontos discretos ou picos no limite do objeto. A operação aberta é freqüentemente usada para quebrar descontinuidades estreitas e eliminar pequenos objetos e saliências finas.
A seguir, uma demonstração da operação aberta:
insira a descrição da imagem aqui

fechar operação

A operação de fechamento é usar o elemento de estrutura BBB para imagemAAA expande primeiro e depois corrói, denotado comoA ∙ BA\bullet BAB
A ∙ B = ( A ⊕ B ) ⊖ BA\marca B=(A\oplus B)\ominus BAB=( AB )O significado
operação fechada de B é: quando B gira fora do limitede A, o ponto mais distante que o ponto em B pode alcançar, conforme mostrado na figura abaixo
insira a descrição da imagem aqui

A função da operação de fechamento :
preencher pequenos orifícios no objeto, preencher pequenas quebras na linha de contorno e conectar as lacunas longas e finas entre dois objetos
A seguir, uma demonstração da operação de fechamento:
insira a descrição da imagem aqui

hit miss transform

O conceito de acertar e errar :

  • 击中
    AAA eBBB é dois conjuntos, quandoA ∩ B ≠ ∅ A\cap B\neq \varnothingAB= é chamado deBBB atingeAAA
  • senhorita
    AAA eBBB é dois conjuntos, quandoA ∩ B = ∅ A\cap B= \varnothingAB= é chamado deBBB perdeAAA

Transformação Hit-Miss (HMT):
definida da seguinte forma:
A ⊛ B = ( A ⊖ B 1 ) ∩ ( A c ⊖ B 2 ) A\circledast B=(A\ominus B_1)\cap (A^c\ ominus B_2 )AB=( AB1)( AcB2)
Entre elesAAA é a imagem;B 1 , B 2 B_1,B_2B1,B2para elemento estrutural B 1 B_1B1Para a parte de acerto necessária, B 2 B_2B2Para a parte de não bater (não importa se você não entendeu, tem exemplos abaixo); A c A^cAc paraAAO complemento de A (inverta cada elemento)
Aqui precisamos prestar atenção emA c A^cAc , como mostrado na figura abaixo
insira a descrição da imagem aqui

Função de transformação Hit—no hit: (Se você não quer entender o motivo, apenas lembre-se da função diretamente, não precisa se lembrar da fórmula)
Localize o elemento estrutural BBB na imagemAAPara a posição em A , use a seguinte fórmula:
A ⊛ B = ( A ⊖ B ) ∩ ( A c ⊖ B c ) A\circledast B=(A\ominus B)\cap (A^c\ominus B^ c )AB=( AB )( AcBc )
Observe queA c , B c A^c,B^cAc ,BExistem infinitos 1s fora do limite de c , mas para expressar convenientemente o processo de operação de corrosão, B c B^cBc exibirá apenas um pixel fora do
quadro
insira a descrição da imagem aqui

Para explicar o motivo, os conceitos de primeiro plano e plano de fundo são introduzidos aqui

  • Foreground: o elemento com o qual "nos preocupamos", 1 em uma imagem binária
  • Antecedentes: Elementos com os quais "não nos importamos", 0 na imagem binária

A essência do resultado da operação de corrosão é obter o conjunto de origens que correspondem aos elementos estruturais (primeiro plano) na imagem,
então A ⊖ BA\ominus BAB está apenas na imagemAAA encontrado comBBO primeiro plano de B corresponde apenas a uma série de posições, mas o plano de fundo não corresponde necessariamente;
portanto, o plano de fundo precisa ser correspondido e háA c ⊖ B c A^c\ominus B^cAcBNo item c , a operação complementar substitui o foreground e o background, então a correspondência é o background. A
interseção da parte correspondente do foreground e a parte correspondente do background éBBA parte em que o primeiro plano e o plano de fundo de B correspondem, ou seja,BBOnde B apareceu

alguns algoritmos

Vamos falar sobre alguns algoritmos morfológicos básicos: o objeto de processamento é uma imagem binária

Extração de limite

Princípio:
β ( A ) = A − ( A ⊖ B ) \beta(A)=A-(A\ominus B)b ( A )=A( AB )
em queβ ( A ) \beta(A)β ( A ) é a imagemAAMapa de fronteira de A , BBB é um elemento estrutural

Aqui está um exemplo:
insira a descrição da imagem aqui

preenchimento de área

princípio:

  1. X 0 X_0x0para tamanho e imagem aaUm mapa em branco do tamanho de A (os valores são todos zeros)
  2. deAA_ _Selecione um ponto na área a ser preenchida em A , correspondente aX 0 X_0x0Defina o valor do ponto correspondente para 1 em
  3. Aplique a fórmula X k = ( X k − 1 ⊕ B ) ∩ A c X_k=(X_{k-1}\oplus B)\cap A^cxk=( Xk - 1B )Ac
  4. Repita a etapa 3 até que a área não cresça mais
  5. Finalmente X k ∪ A X_k\copo AxkA é a imagem após o preenchimento da área

Aqui está um exemplo:
insira a descrição da imagem aqui

análise de textura

Antes de falar sobre análise de textura, vamos explicar alguns nomes:

Definição de textura

Definição de textura :
A textura é um fenômeno visual onipresente. Podemos senti-los facilmente, mas é difícil defini-los com precisão. A seguir estão duas definições comumente usadas. Definição 1:
De acordo com certas regras, elementos ou elementos básicos (primitivos) são organizados para formar um padrão repetitivo
Definição 2: Se um conjunto de propriedades locais da função de imagem for constante , ou mudar lentamente , ou aproximadamente periódico , então a região correspondente na imagem tem uma textura constante
abaixo estão alguns mapas de textura:
insira a descrição da imagem aqui

Características básicas de texturas

  1. Propriedades da região. A textura é um atributo de uma área de uma imagem e está intimamente relacionada com a resolução da imagem
  2. Repetibilidade, regularidade, direcionalidade, etc.

Definição de Análise de Textura

Definição de análise de textura A análise de textura refere-se ao processo de extração de parâmetros característicos de textura
por meio de certas técnicas de processamento de imagem , de modo a obter uma descrição quantitativa ou qualitativa da textura. A análise de textura inclui: classificação de textura, segmentação de textura, recuperação de forma a partir de textura, etc. Para: inspeção de produtos, análise de imagens médicas, processamento de documentos, análise de imagens de sensoriamento remoto, etc.

Descrição de textura A extração de recursos de
textura é o processo de extração de recursos de textura de imagem por meio de um determinado algoritmo para obter uma descrição quantitativa da textura. Em outras palavras, é encontrar um vetor que possa descrever recursos de textura, de modo que a distância dentro da classe de textura possa ser reduzida enquanto a distância entre as classes pode ser aumentada.

Segmentação de textura
Divide a imagem em várias regiões separadas de acordo com os recursos de textura para determinar os limites de diferentes texturas na imagem

Classificação de textura
A classificação de textura é para classificar corretamente imagens de textura desconhecida em tipos de textura conhecidos
A seguir está a estrutura de classificação:
insira a descrição da imagem aqui

A imagem abaixo mostra classificação de textura e segmentação de textura
insira a descrição da imagem aqui

Síntese de textura A
síntese de textura é a síntese de imagens de textura a partir de primitivas de textura

Métodos de Análise de Textura

  • Métodos estatísticos
    Utilizar as características de distribuição de nível de cinza de textura no espaço,
    matriz de co-ocorrência de nível de cinza e função de autocorrelação
  • Métodos estruturais
    Utilizam as características dos primitivos organizados em texturas
    Baseados em recursos primitivos ou regras de combinação primitiva
  • Os métodos baseados em modelos
    assumem que as texturas são instâncias de uma classe de modelos paramétricos
    Campos aleatórios de Markov
  • Métodos de processamento de sinal
    Utilize a periodicidade da textura e use métodos de filtragem para processar
    a transformada de Fourier, transformada de Gabor, transformada de wavelet, etc.

matriz de co-ocorrência de nível de cinza

Cálculo da matriz de co-ocorrência em escala de cinza:
assumindo a imagem em escala de cinza AAO nível de cinza de A éLLeu

  1. Atravesse toda a imagem pixel por pixel, assumindo que as coordenadas do ponto atualmente sendo percorrido são ( m , n ) (m, n)( m ,n ) , o valor cinza éA ( m , n ) A(m,n)A ( m ,n ) . Existe um vetor deslocamentod = ( a , b ) d=(a,b)d=( um ,b ) , as coordenadas do ponto de deslocamento são( m + a , n + b ) (m+a,n+b)( m+um ,n+b ) , o valor cinza éA ( m + a , n + b ) A(m+a,n+b)A ( m+um ,n+b ) . Registre o valor de cinza desses dois pontos[ A ( m , n ) , A ( m + a , n + b ) ] [A(m,n),A(m+a,n+b)][ A ( m ,n ) ,A ( m+um ,n+b )]li = A ( m , n ) , lj = A ( m + a , n + b ) l_i=A(m,n),l_j=A(m+a,n+b)eueu=A ( m ,n ) ,euj=A ( m+um ,n+b ) , então o valor de cinza desses dois pontos pode ser registrado como< li , lj > <l_i,l_j><eueu,euj> , o motivo de escrever isso é porque ele é ordenado, ou seja,< li , lj > ≠ < lj , li > <l_i,l_j>\neq <l_j,l_i><eueu,euj>=<euj,eueu> . Depois de percorrer toda a imagem, uma série de pares de valores de cinza será obtida
  2. Conte os resultados, assumindo N ( li , lj ) N(l_i,l_j)N ( eueu,euj) é o par de valores cinza< ​​li , lj > <l_i,l_j><eueu,euj> o número de ocorrências. Os resultados estatísticos podem ser escritos como um tamanho deL × LL\vezes Leu×A matriz de L , o primeiroli l_ieueulinha lj l_jeujOs elementos da coluna são N ( li , lj ) N(l_i,l_j)N ( eueu,euj)

A forma da matriz de coocorrência obtida acima é a seguinte
insira a descrição da imagem aqui

Vetor de deslocamento d = ( a , b ) d=(a,b)d=( um ,b ) Seleção:
Deve ser selecionado de acordo com as características de distribuição periódica da textura.
Se a textura for fina, os deslocamentosa, ba, bum ,b escolha o menor valor

O seguinte é um exemplo de obtenção da matriz de co-ocorrência de nível de cinza:
o tamanho da imagem é 5 × 5 5\times 55×5 , o nível de cinza é3 33 , vetor deslocamentod = ( 1 , 1 ) d=(1,1)d=( 1 ,1 )
insira a descrição da imagem aqui

Informações obtidas da matriz de co-ocorrência de nível de cinza:

  • Elementos na diagonal principal
    Elementos na diagonal principal estão no deslocamento ddSob a condição de d
    , o número de ocorrências da mesma combinação de níveis de cinza Como a textura tem as características de que o nível de cinza é basicamente o mesmo ao longo da direção da textura,
    o tamanho dos elementos na diagonal principal ajuda a julgara direçãoeinformaçõesespessura
  • Outros elementos, exceto a diagonal principal
    A distribuição de outros elementos em relação à diagonal principal pode representar a discrição , que reflete a espessura
    da textura. Para texturas grosseiras , os valores da matriz de co-ocorrência de nível de cinza estão concentrados perto da diagonal.
    Para uma textura fina com os valores da matriz de co-ocorrência em tons de cinza espalhados aqui e ali

Resumo da matriz de co-ocorrência de nível de cinza:

  • Em comparação com o histograma, a matriz de co-ocorrência de nível de cinza reflete as características de distribuição espacial de cada nível de cinza na imagem de textura até certo ponto
  • Múltiplas texturas podem ser definidas pela matriz de co-ocorrência de nível de cinza
  • Usado principalmente para classificação de textura, menos para segmentação de textura

Há um problema:

  • O vetor de deslocamento é um parâmetro importante da matriz de co-ocorrência de nível de cinza e sua seleção carece de um método eficaz

Percepção de alto nível para visão computacional

visão computacional

A visão computacional é a capacidade de adquirir e processar informações simulando o mecanismo visual humano com um computador

Como a visão computacional se relaciona com alguns bairros

  • Processamento de imagens
    No processamento de imagens, os seres humanos são os melhores intérpretes Na
    visão computacional, os computadores são os melhores intérpretes
    A visão computacional requer processamento de imagens
  • Computação gráfica
    Computação gráfica: use imagens bidimensionais para exibir descrições tridimensionais, como algum software de visualização 3D
    Visão computacional: de imagens bidimensionais para descrições tridimensionais,
    as duas são recíprocas
  • Reconhecimento de padrões
    Muitos métodos de reconhecimento de padrões podem ser aplicados à visão computacional
  • Inteligência artificial
    A visão computacional é um ramo da inteligência artificial

Geometria + Medição + Interpretação = Visão

Algumas aplicações da visão computacional:

  • previsão de comportamento
  • rastreamento corporal
  • Reconstrução 3D etc.

Teoria da Visão Computacional

Marr (Marr) Estrutura de Computação Visual

Sobre Marr:
Um dos fundadores da visão computacional, Marr combinou descobertas de psicologia, inteligência artificial e neurofisiologia

Estrutura de computação visual de Marr:
a visão é uma tarefa de processamento de informações com três níveis

  1. Nível 1: Teoria Computacional do Processamento de Informações
  2. Segundo Nível: Algoritmos
  3. O terceiro nível: o mecanismo ou hardware que implementa o algoritmo

Marr divide o processo de retornar informações de forma de uma imagem em três estágios representacionais:

  1. esboço inicial
  2. mapa 2.5 dimensional
  3. modelo 3D
Teoria da visão baseada em inferência

A ideia principal: apenas com base nos dados da imagem em si não pode fornecer restrições suficientes na estrutura do espaço do objeto correspondente, é necessário adicionar conhecimento prévio

atenção visual

No processamento de informações visuais humanas, alguns objetos salientes são sempre selecionados rapidamente para
processamento prioritário, enquanto outros objetos não salientes são ignorados ou descartados.

Significado de pesquisa da atenção visual:

  • Reduza a complexidade computacional e melhore a eficiência do processamento
  • Deixe o computador imitar a seletividade e a iniciativa do olho humano para melhorar a capacidade de triagem de informações

Classificação e Reconhecimento de Imagens

um pouco

Detecção de Objetos em Deep Learning

Introdução à detecção de objetos

A diferença entre classificação e detecção:

  • Classificação é classificar uma imagem em uma determinada categoria com base em seu conteúdo
  • A detecção é detectar as informações de conteúdo contidas na imagem (qual é o conteúdo? onde? etc.)

Redes neurais

um pouco

método popular

método de dois estágios

O método de dois estágios divide a detecção de alvo em dois estágios:

  1. Geração de caixas candidatas
    Gera uma série de caixas candidatas
  2. Classificação de caixas de candidatos
    Executa classificação alvo/não-alvo em caixas de candidatos

Métodos comuns de dois estágios são:

  • Série RCNN: RCNN, Fast-RCNN, Faster-RCNN
  • FPN
  • RetinaNet
  • R-FCN
  • Máscara RCNN
  • RefineDet
método de estágio único

O método de estágio único realiza a detecção do alvo diretamente na imagem sem gerar caixas candidatas

Métodos comuns de um estágio são:

  • Série YOLO
  • série SSD
Método de dois estágios versus método de um estágio

Método de dois estágios: alta precisão, mas
velocidade relativamente baixa Método de um estágio: velocidade rápida, mas precisão relativamente baixa

Segmentação Semântica em Deep Learning

super pixel

Um superpixel é uma coleção de uma série de pixels, esses pixels têm características semelhantes, como cor e textura, e a distância é relativamente próxima. Conforme mostrado na
figura abaixo, a coleção de pixels na área dentro da linha branca é um superpixel
insira a descrição da imagem aqui

segmentação semântica

A segmentação semântica consiste em atribuir a cada pixel da imagem um rótulo de categoria (como: pessoas, carros, estradas, árvores, etc.) A
figura a seguir é um exemplo de segmentação semântica:
insira a descrição da imagem aqui

A segmentação semântica só pode julgar categorias, mas não pode distinguir indivíduos
. Se um pixel na imagem acima estiver marcado em vermelho, podemos saber que ele pertence à categoria de pessoas, mas se dois pixels estiverem marcados em vermelho, não podemos distinguir se os dois pixels são da mesma pessoa

segmentação de instância

Em comparação com a detecção de destino, a detecção de destino fornece a caixa de destino (caixa delimitadora), enquanto a segmentação de instância fornece a máscara
Comparada com a segmentação semântica, a segmentação de instância não precisa marcar cada pixel, apenas a borda do objeto de interesse Apenas contorno . Os indivíduos podem ser distinguidos porque cada indivíduo tem um contorno colorido diferente

O método Mask-CNN é um algoritmo de segmentação de instância
Observe que Mask-RCNN é um algoritmo de detecção de alvo, não o confunda

Veja a seguir um diagrama esquemático de segmentação de instância:
insira a descrição da imagem aqui

segmentação panorâmica

A segmentação panóptica é uma combinação de segmentação de instância e segmentação semântica, que pode distinguir classes e instâncias dentro de classes.
Aqui está um exemplo de demonstração:
insira a descrição da imagem aqui

Aplicações de Deep Learning na Segmentação

método totalmente supervisionado

novas ideias iniciais

  • Método de redução: Este método consiste em realizar a segmentação em cada superpixel
  • Método Totalmente Convolucional

Método U-net

Método DeepLab

Método de campo aleatório condicional semelhante a RNN

Método SegNet

método PSPNet

Método RefineNet

rede GAN

método fracamente supervisionado

método STC

método DSRG

Métodos L-Net e P-Net

método ORMAE

Acho que você gosta

Origin blog.csdn.net/qq_52554169/article/details/131131635
Recomendado
Clasificación