"Fusão cruzada de recurso de nível adjacente com CNN 3D para detecção de alteração de imagem de sensoriamento remoto" notas de papel

Papel : Fusão cruzada de recurso de camada adjacente e CNN 3D para detecção de alteração de imagem de sensoriamento remoto

Autor : autor
Data : 2023.2.10

Pontos de contribuição :

  1. Uma rede convolucional 3D fim-a-fim para detecção de mudanças em imagens de sensoriamento remoto é proposta. Diferente das estratégias de fusão de características existentes, esta rede utiliza a propriedade de fusão intrínseca da convolução 3D, que é uma tentativa inovadora no campo da detecção de mudanças.
  2. Um módulo de fusão cruzada de recursos de nível de adjacência (AFCF) é projetado entre o codificador e o decodificador. Ao fundir recursos de camadas adjacentes, o módulo AFCF pode obter complementaridade de recursos e melhor representação de recursos.
  3. Além disso, uma estratégia de conexão de salto densa é introduzida para melhorar a capacidade preditiva de nível de pixel resultante e a compactação de objetos em mudança.

Estrutura geral :
insira a descrição da imagem aqui

O AFCF3D-Net usa uma arquitetura de codec padrão e uma série de módulos de processamento de recursos, incluindo principalmente as seguintes partes:

  1. Codificador de recursos 3D O codificador de recursos 3D usa ResNet-50 como backbone, que é estendido por convolução 3D. O objetivo do codificador de recursos 3D é extrair e fundir simultaneamente recursos de imagens de sensoriamento remoto bitemporais, e sua saída são recursos fundidos bitemporais.
  2. Módulo AFCF, o módulo AFCF é estabelecido entre o codificador e o decodificador, que pode realizar a fusão cruzada dos recursos de nível adjacente do codificador e transferir informações de alteração valiosas para o decodificador. Além disso, também apresentamos o módulo Squeeze Excitation e o aprimoramos ainda mais para se adequar à rede de detecção de alterações proposta.
  3. No decodificador, uma estratégia de conexão de salto densa é usada para agregar recursos de várias camadas para gerar mapas de mudança mais precisos.

<1> codificador de recurso 3D
insira a descrição da imagem aqui

Adote um ResNet50 3D expandido como backbone e substitua todas as convoluções 2D no ResNet tradicional por convoluções 3D. Ou seja, substituímos os filtros convolucionais 2D de tamanho 3*3 por filtros convolucionais 3D de tamanho 3*3*3. Além disso, para facilitar a convergência de redes convolucionais 3D, os kernels do filtro convolucional 3D são decompostos em componentes espaciais e temporais independentes (ver Figura 3(a)), cujos tamanhos de filtro são 1*3*3 e 3*1, respectivamente * 1 . O primeiro executa a extração de características no componente espacial, e o segundo realiza a fusão de características de imagens dual-temporais no componente temporal.

Conforme mostrado na Figura 3(b), o processo do codificador de recursos de conversão de convolução 3D em convolução dimensional 2+1, o recurso de saída do bloco de recursos 3D do backbone pode ser escrito como: onde Fi1 e Fi2 representam a fatia de recurso 3D do dual -time image
insira a descrição da imagem aqui
, w1, w2, w3 representam os pesos temporais tridimensionais do filtro tridimensional e * representam a operação de convolução bidimensional. Devido às propriedades de fusão inerentes da convolução 3D, as características das imagens bitemporais podem ser efetivamente fundidas por meio da formulação acima da convolução 3D. As características invariantes de imagens bitemporais mantêm suas próprias propriedades comuns através do filtro compartilhado w2. Ao mesmo tempo, sob a condição de filtragem com pesos apreensíveis w1 e w3, respectivamente, as características das imagens bitemporais são aprimoradas.

<2> Fusão cruzada de recurso de camada adjacente
insira a descrição da imagem aqui

A estrutura do AFCF é mostrada na Figura 4. O AFCF conecta o codificador e o decodificador.Os cinco módulos do AFCF podem ser expressos como, AFCFi, 0<=i<=4. Para ilustrar ainda mais, geralmente existem três ramificações (ou seja, atual, anterior e subsequente) em AFCF i , i ∈ {1,2,3 }. Enquanto AFCF i, i ∈ {0,4} contém apenas dois ramos (isto é, um ramo atual e um ramo vizinho). Além disso, o número de canais de cada nível de recurso de entrada obtido do codificador 3D é primeiro reduzido usando um módulo de redução de canal (CR) para reduzir seus canais a um número fixo menor (ou seja, 32 neste artigo), o que pode reduzir a computação carga e uso de memória. Especificamente, o módulo CR reduz o número inicial de canais de cada camada de {64, 256, 512, 1024, 2048} para {32, 32, 32, 32} ao executar CR.

Na etapa de fusão cruzada, o ramo anterior (ou seja, ramo de baixo nível) e o ramo subsequente (ou seja, ramo de alto nível) são convertidos na resolução do ramo atual por downsampling e upsampling, respectivamente. Este processo pode ser expresso como:
insira a descrição da imagem aqui
onde f i-1, f i+1 são o ramo anterior e o ramo subsequente respectivamente. F i-1 e Fi+1 correspondem a feições subamostradas e feições upsampled, respectivamente. Down(.) é uma operação de downsampling de convolução tridimensional com 2 passos, e UP(.) é um upsampling de 2 vezes obtido por interpolação bilinear. Eles são todos mesclados no ramo atual por adição de elementos. Os recursos de fusão cruzada preliminares resultantes são então alimentados em um bloco convolucional 3D do kernel 3*3*3. Finalmente, a operação Modified Squeeze and Excite (MSE) no AFCF utiliza os recursos fundidos em cada camada de recursos para calibrar os respectivos mapas de recursos após a fusão cruzada de recursos da camada adjacente. Além disso, uma estratégia de aprendizado residual é introduzida para combinar os recursos originais do ramo atual com os recursos da camada adjacente fundida para aprimorar a capacidade de representação de alterar os recursos. Todo o processo é descrito da seguinte forma:

insira a descrição da imagem aqui
Entre eles, F i-1, F i, F i+1 são as características do ramo anterior, do ramo atual e do ramo subsequente respectivamente. F oi é o resultado da fusão cruzada de recursos de vários níveis. AFCFF i representa a soma das três ramificações e sum(.) representa a operação de soma. MSE(.) indica o módulo MSE descrito abaixo.
insira a descrição da imagem aqui

O codificador neste artigo é 3D e o tensor de recursos é 4D. Portanto, os mecanismos de atenção geral não podem ser usados ​​diretamente para aprimorar as representações de recursos. Inspirado no mais popular módulo de atenção squeeze-and-excitation (SE), este artigo propõe um módulo melhorado de squeeze-and-excitation (MSE) para aprimorar as informações de recursos. Conforme mostrado na Figura 5. Assumimos que o mapa de recursos é insira a descrição da imagem aqui
onde C, T, H e W reduzem o número de canais, tempo, altura e largura do recurso F, respectivamente. Primeiro, o recurso F com dimensão C * T * H * W é reformulado no recurso F' com dimensão (C * T) * H * W, incorporando informações de dimensão de tempo na dimensão de canal. Posteriormente, os recursos são submetidos a operações de compressão e excitação, resultando em vetores de recursos de canal1,2{,,,…,}C Tfv fv fv fv与C Tfv R。

Em seguida, os vetores de recursos de canal extraídos são aplicados ao mapa de recursos F' para gerar recursos aprimorados. Por fim, os recursos aprimorados foram reformulados de (C * T) * H * W para C * T * H * W . Todo o processo é formulado da seguinte forma:

insira a descrição da imagem aqui
Onde F representa o vetor de características de entrada, Tran e Inv representam as operações de transformação direta e transformação inversa, respectivamente. CAF denota recursos aprimorados e  denota multiplicação elemento a elemento.

<3> Decodificador de recursos com estratégia de conexão de salto densa

O mecanismo de conexão de salto denso pode agregar informações espaciais detalhadas de mapas de recursos de baixo nível e informações semânticas abstratas de mapas de recursos de alto nível, garantindo assim que o decodificador possa extrair totalmente os recursos de multiescala obtidos em cada nível diferente e aprimorar o pixel- detecção de mudança de nível Capacidade de prever.
insira a descrição da imagem aqui
Figura 2© Para integrar os mapas de recursos em escala real gerados pelos módulos AFCF, o mapa de recursos integrado é denominado F oi , que é gerado pelo i-ésimo módulo AFCF.

Mais especificamente, tomamos um decodificador de recursos de nível 4 como exemplo para ilustrar como integrar mapas de recursos.

Primeiro, os três primeiros mapas de recursos de baixo nível (ou seja, Fo1, Fo2 e Fo3) com resolução mais alta são reduzidos, respectivamente, usando a sequência de blocos de redução de resolução com a mesma escala de F o4 e os mapas de recursos de nível superior com resolução mais baixa O gráfico (ou seja, F o5 ) é aumentado para a mesma escala de F o4. Em seguida, os recursos subamostrados e aumentados são concatenados com 4 Fo na dimensão do tempo. Deve-se notar que o número do canal de cada mapa de recursos na dimensão de tempo é o mesmo para as operações de downsampling e upsampling. O recurso conectado é denominado CF 4 , e seu número de canal na dimensão de tempo é 5 vezes o de cada recurso anterior. Além disso, para reduzir o uso de memória e facilitar o processamento subsequente, projetamos uma redução de tempo de bloco de redução de dimensão de tempo (TR), que pode reduzir o número de canais de recursos de dimensão de tempo. O processo de cálculo de feições na quarta camada pode ser resumido da seguinte forma:
insira a descrição da imagem aqui
onde TCat() é o splicing de feições na dimensão de tempo. D() e U() representam operações de downsampling e upsampling, respectivamente. MSE() representa o módulo MSE mencionado acima. TR() representa uma operação de redução de canal de tempo. F4 é um recurso agregado por um decodificador de quatro estágios. De acordo com um procedimento semelhante, podemos obter F3, F2 e F1 sucessivamente. Depois de obter F1, filtre a convolução 1 * 1 * 1 e adicione uma camada sigmoide para obter o mapa de alteração.

Resultados experimentais :
insira a descrição da imagem aqui

Acho que você gosta

Origin blog.csdn.net/qq_40994007/article/details/129054370
Recomendado
Clasificación