Detecção de objetos salientes combinada com o Transformer

Fonte: Informação e Controle

Autores: Yan Yuhu, Wang Yongxiong, Pan Zhiqun

Resumo

Aprender recursos convolucionais globais eficazes é crucial para a detecção de objetos salientes. Quanto mais profundo o modelo de rede neural convolucional, melhor o campo receptivo global pode ser obtido, mas isso geralmente perde informações locais e leva a arestas do alvo. Para resolver este problema, um novo codificador baseado em atenção Vision Transformer é introduzido.Comparado com CNN (rede neural convolucional), ele pode representar recursos globais rasos a profundos e estabelecer auto-atenção em cada região da imagem. Especificamente, um codificador Transformer é usado primeiro para extrair recursos de destino e o codificador retém mais informações de borda local na camada rasa para restaurar os detalhes espaciais do mapa de saliência final. Em seguida, usando as informações globais herdadas entre as camadas frontal e posterior do codificador Transformer, os recursos de saída de cada camada do Transformer são finalmente previstos. Com base nisso, a supervisão de borda rasa é usada para obter informações de borda ricas e, em seguida, as informações rasas são combinadas com informações de posição global. Finalmente, o mapa de saliência final é gerado por fusão assintótica no decodificador, que promove a fusão completa de informações de alto nível e informações de nível raso e localiza com mais precisão objetos salientes e suas bordas. Os resultados experimentais mostram que o método proposto supera os métodos de última geração em 5 conjuntos de dados amplamente utilizados sem nenhum pós-processamento.

Palavras-chave

Transformador, detecção de saliência, supervisão de borda, fusão assintótica

introdução

O sistema visual humano possui um mecanismo de atenção eficaz para selecionar as informações mais importantes da cena visual, e a detecção de objetos salientes imita esse comportamento dos humanos, visando localizar os objetos visualmente mais distintos na imagem. Como um método de pré-processamento, a detecção de objetos salientes em imagens tem sido amplamente utilizada com sucesso em vários campos de processamento de imagens e visão computacional. Por exemplo, reconhecimento de objetos [1], rastreamento visual [2], recuperação de imagens [3], etc.

A pesquisa inicial localiza principalmente objetos salientes com base no contraste de cor e contraste de textura. Embora algum progresso tenha sido feito, é difícil localizar objetos salientes com precisão porque os recursos artesanais geralmente carecem de informações globais. Com o desenvolvimento do aprendizado profundo nos últimos anos, a rede neural convolucional (CNN) [4] alcançou o aprendizado de ponta a ponta, especialmente nos últimos anos, a rede totalmente convolucional (FCN) [5], gradualmente substituiu o método tradicional de detecção de saliência . No entanto, devido à localidade de FCN, os métodos baseados em FCN geralmente enfrentam uma compensação entre recursos globais e locais. Para codificar informações de alto nível, o modelo precisa empilhar muitas camadas convolucionais para expandir o campo receptivo, mas isso perderá informações locais, informações de perda de borda e causará desfoque de borda. ZHANG et al [6] propuseram uma rede de transferência de informação bidirecional para melhor integrar recursos multicamada. [7] projetou uma operação de agrupamento eficaz para capturar mais informações de recursos. PANG et al. [8] projetaram o módulo AIM (módulo de interação agregada) para extrair informações entre recursos adjacentes e também projetaram o módulo SIM (módulo de auto-interação) para extrair informações de recursos multicamada de recursos de camada única para obter informações mais características. [9] propuseram um modelo de detecção de saliência de fusão de recursos multicamada combinado com atenção espacial com base na rede de pirâmide de recursos e mecanismo de atenção. Considerando as diferenças entre as características, WEI et al [10] projetaram um módulo CFM (cross feature module), usando a multiplicação de pixels para evitar ao máximo a introdução de ruído. Com base em HED (detecção de arestas holísticas aninhadas), XIE et al [11] propuseram um método de conexão curta para fundir recursos de alto nível e recursos de baixo nível para resolver o problema do espaço de escala. Esses métodos afetam a eficiência da fusão de informações globais e locais até certo ponto. Visando problemas como limites aproximados de mapas de saliência, muitos métodos têm sido propostos para resolver este problema. Xiao Chuanmin e outros [12] primeiro usaram o algoritmo de Canny para detecção de bordas e, em seguida, fundiram três características básicas de bordas para extrair bordas salientes na imagem. LUO e outros [13] propuseram uma arquitetura baseada em U-Net que inclui IoU (interseção sobre união) perda de borda para detectar objetos salientes usando dicas de borda. [14] obtêm resultados de segmentação de instâncias salientes gerando contornos de objetos. [15] propuseram uma nova função de perda estrutural para prever com precisão os limites dos mapas de saliência.

Inspirado no ViT (Vision Transformer) [16], este artigo abandona o método tradicional baseado em CNN e introduz um codificador Transformer. O Transformer aplica um mecanismo de auto-atenção para cada camada para aprender recursos globais, mantendo recursos locais. Informações globais são injetadas na camada rasa, por isso tem uma poderosa capacidade de adquirir informações globais e locais. [17] projetou um método de detecção de saliência baseado no Transformer, serializando imagens e utilizando a estrutura do Transformer para obter um codificador de representação de recursos totalmente atento. Com base na rede de backbone do Transformer, LIU et al.[18] propuseram um novo método de upsampling e projetaram um decodificador multitarefa para executar conjuntamente a detecção de saliência e limite.

Embora os métodos acima tenham alcançado resultados muito bons, ainda existem problemas como bordas borradas ou posicionamento impreciso. Portanto, este artigo adiciona informações de supervisão de arestas com base no Transformer para tornar mais claras as arestas de objetos salientes. A camada rasa preserva melhor as informações de borda local, mas para obter as características de borda de objetos salientes, a informação local por si só não é suficiente, e informações semânticas de alto nível ou informações de localização também são necessárias [19]. Neste artigo, um módulo guiado por borda é projetado para fundir informações rasas e de alto nível para gerar mapas de limites precisos. Além disso, um novo decodificador foi projetado para fundir efetivamente informações de alto nível e informações de baixo nível por meio de fusão assintótica, de modo que objetos salientes possam ser localizados com mais precisão.

1 Rede de detecção de alvos salientes combinada com Transformer

A estrutura geral do modelo é mostrada na Figura 1. O modelo neste artigo é composto principalmente por dois módulos: supervisão de arestas e fusão assintótica. As informações de supervisão de borda localizam com precisão os limites de objetos salientes, e o método de fusão assintótica é usado para fundir efetivamente informações de alto nível e informações rasas para gerar mapas de saliência de alta qualidade.

foto
Figura 1. Diagrama de estrutura da rede de detecção de alvos salientes combinada com o Transformer

1.1    Codificador

O tamanho da imagem de entrada neste artigo é 384 × 384. Como a entrada do Transformer é uma sequência unidimensional, a imagem bidimensional deve ser convertida primeiro em uma sequência unidimensional. Inspirado por ViT, a imagem de entrada y é primeiro dividida em

foto

blocos de imagem não sobrepostos com uma resolução de 16 × 16, N representa a dimensão, H e W são a altura e a largura da imagem, respectivamente, e o comprimento da sequência L é

foto

, cada chave é representada como um patch de imagem 16 × 16 não sobreposto na sequência y'. Como o codificador Transformer possui informações de codificação de posição e uma camada de codificação com atenção multicabeçal e perceptron multicamada, este artigo usa o Transformer como rede principal. Sua estrutura é mostrada no lado direito da Figura 2.

foto
Figura 2 Operação de pixel-shuffle e estrutura do Transformer 

Como o mecanismo de atenção não consegue distinguir a diferença de posição, o primeiro passo deve ser incorporar as informações de posição na sequência y' para obter o recurso de aprimoramento de posição F:

foto

(1)    

Entre eles, EP representa a informação de codificação de posição inicializada aleatoriamente sob a distribuição Gaussiana truncada, e “+” representa a operação de adição.

O codificador Transformer consiste em 12 camadas, e cada camada consiste em auto-atenção multicabeçal (MSA) e perceptron multicamadas (MLP). A autoatenção com várias cabeças é uma extensão da autoatenção (SA):

foto
(2)    

Entre eles, F refere-se aos recursos de entrada de auto-atenção, Wq, Wk e Wv são pesos com parâmetros treináveis; d é a dimensão de Q, K e V e φ é a função de ativação softmax. Para aplicar múltiplas atenções em paralelo, a autoatenção multicabeça tem m autoatenções independentes:

foto

(3)    

"⊕" indica a operação concat. Em resumo, na i-ésima camada do Transformer, o recurso de saída F é

foto
(4)    

Dentre eles, LN ( ) é a normalização da camada, e Fi é o recurso da i-ésima camada do Transformer.

1.2    Supervisão de borda

O modelo de informações de arestas salientes é estabelecido usando o módulo de supervisão de arestas, e as feições de arestas salientes são extraídas. Camadas rasas preservam melhores informações de borda. No entanto, para obter recursos de borda salientes, informações locais por si só não são suficientes, e informações semânticas de alto nível ou informações de localização também são necessárias. Geralmente, a camada superior possui o maior campo receptivo e a posição mais precisa. Portanto, conforme mostrado na Figura 1, este artigo projeta uma propagação de posição de cima para baixo, que combina a operação de upsampling da última camada rica em informações de alto nível com a primeira camada rica em informações rasas para aprimorar os recursos de borda. Este método pode localizar com mais precisão o contorno de objetos salientes e, em seguida, capturar objetos salientes com precisão. O recurso de fusão pode ser expresso como

foto

(5)    

Dentre eles, C1 representa as informações do recurso da primeira camada, onde Trans(F12; θ) é uma camada de convolução com parâmetro θ, cujo objetivo é alterar o número de canais do recurso, e R( ) representa a função de ativação ReLU ; UP(F12; C1) é uma operação de upsampling cujo objetivo é fazer upsampling de F12 para o mesmo tamanho de C1. Na parte da borda, este artigo adota a função de perda de entropia cruzada binária padrão:

foto
(6)    

Entre eles, H e W são a altura e a largura da imagem, respectivamente, P'ij é o mapa de saliência da aresta e G'ij é o mapa verdade da aresta.

1.3    Fusão assintótica

O módulo de fusão assintótica é usado para fundir informações de alto nível e informações rasas. O método de fusão assintótica pode não apenas aliviar o problema de diluição de recursos no processo de transmissão de informações de alto nível, mas também pode fundir informações de alto nível e informações rasas de maneira mais eficaz. Neste artigo, as feições da camada Transformer são ampliadas camada por camada para a mesma resolução da imagem de entrada. Este artigo não usa apenas upsampling de interpolação bilinear tradicional, mas combina um novo tipo de método de upsampling: operação de upsampling de pixel-shuffle [20].

Na operação de convolução, a imagem convoluída é geralmente aumentada e depois restaurada ao tamanho da imagem original.Nas CNNs tradicionais, a maioria delas usa interpolação bilinear para cálculo, mas parâmetros são introduzidos para aumentar a complexidade computacional. Pixel-shuffle também é uma operação de upsampling para aumentar o tamanho do mapa de recursos de entrada e reduzir o número de canais. Ele não gera diretamente imagens de alta resolução por meio de interpolação, mas primeiro obtém mapas de recursos de canais k2 por meio de convolução e, em seguida, obtém imagens de alta resolução por meio de triagem periódica. A convolução de subpixel é usada como a primeira etapa do upsampling para capturar características espaciais mais ricas. A convolução de subpixel reorganiza os pixels de cada canal por meio da mistura de pixels para obter um novo mapa de recursos. Conforme mostrado no lado esquerdo da Figura 2, se a forma da imagem original for w×h×(k2×n), w, h e k2×n são a largura, a altura e o número de canais da imagem, respectivamente , e k é o fator de ampliação da imagem Após Pixel- Após a operação de embaralhamento, a forma do mapa de recursos é kw×kh×n.

A fim de fundir de forma mais eficaz as informações de recursos da camada Transformer e reduzir o ruído causado pelo upsampling direto, os 12 recursos de saída são primeiro divididos em 3 estágios e upsampled do primeiro estágio para o terceiro estágio, conforme mostrado na Figura 1. Upsampling aqui inclui operações de pixel-shuffle e operações regulares de upsampling. Na i-ésima camada, o recurso F'i e o recurso F'i+1 da camada anterior são reamostrados e depois concatenados para obter o recurso F"i por meio da operação de convolução. A última camada do recurso F'12 é diretamente amostrado e depois convoluído para obter o recurso F"12. A fórmula de fusão é a seguinte:

foto
(7)    

Entre eles, "CBR" significa operações de convolução, normalização de lote e função de ativação ReLU.

Então, cada camada de recursos passa por uma série de operações de convolução para obter uma imagem do mesmo tamanho da imagem de entrada, um total de 12 mapas de recursos de saída, e o mapa de recursos da última camada é usado como o mapa de saliência final. A função de perda neste estágio é

foto

(8)    

Dentre eles, Pij é o mapa de saliência, Gij é o mapa verdade, e existem 12 funções de perda nesta etapa. Portanto, a função de perda final neste artigo é

foto
(9)    

2. Experiência e análise de resultados

2.1    Detalhes da Implementação

O modelo é treinado no conjunto de dados DUTS regular [21]. Os parâmetros do codificador Transformer são inicializados com pesos pré-treinados no conjunto de dados ImageNet, e o resto dos parâmetros são inicializados aleatoriamente nas configurações Pytorch. O otimizador SGD (stochastic gradient descent) é usado para treinar a rede, definindo momentum=0.9, e o decaimento do peso é 0,000 5. A taxa de aprendizado diminui gradualmente de 0,001 a 0,000 01 e o treinamento totaliza 40 épocas, tamanho do lote = 2. Durante o treinamento, técnicas de aprimoramento de dados, como inversão vertical e horizontal, são executadas nos dados de treinamento para melhorar a robustez do modelo, e as imagens de entrada são cortadas uniformemente para 384 × 384. Na fase de teste, a saída da última camada é usada como o mapa de saliência previsto. Este artigo adota a plataforma de hardware GPU NVIDIA GTX TITAN Xp×2 e a estrutura de aprendizagem profunda Pytorch.

2.2    Comparação de desempenho de conjuntos de dados e indicadores de avaliação

Avalie nosso modelo em 5 conjuntos de dados públicos amplamente usados: DUTS-TE [22], ECSSD [23], HKU-IS [24], DUT-OMRON [25], PASCAL-S [26]. O DUTS-TE é o maior conjunto de dados para avaliar a detecção de saliência, contendo 10.553 imagens de treinamento e 5.019 imagens de teste. O ECSSD contém 1000 imagens com informações ricas sobre recursos em diferentes cenas. HKU-IS tem 4 447 imagens em cenas de baixo contraste ou multi-objetos. O conjunto de dados DUT-OMRON contém 5 168 imagens de alta qualidade, que contêm planos de fundo complexos ou pelo menos um objeto saliente. O PASCAL-S contém 850 imagens naturais selecionadas do PASCAL VOC.

Para melhor verificar a eficácia deste método, três indicadores de avaliação comuns são selecionados para avaliar o modelo neste artigo, a saber: erro médio absoluto (MAE), F-measure (Fβ) e S-measure (Sm). Limiares diferentes podem obter precisão e recuperação diferentes, de modo que a curva PR pode avaliar de forma abrangente os resultados da previsão. MAE é o erro médio absoluto, que é usado para medir a similaridade entre o mapa de saliência e o mapa de verdade terrestre (GT):

foto

(10)    

Entre eles, P representa o mapa de saliência previsto, G é o mapa de verdade correspondente e H e W são a altura e a largura do mapa de saliência, respectivamente. Outro índice de avaliação Fβ é a média harmônica ponderada de precisão e recall, que pode refletir de forma abrangente a relação entre precisão e recall. É definido da seguinte forma:

foto

(11)    

Entre eles, β2 é geralmente definido como 0,3 para aumentar o peso da precisão. A medida S reflete a conexão entre o primeiro plano e o plano de fundo e pode medir a consistência estrutural entre o mapa de saliência e o mapa de verdade, que é definido da seguinte forma [27]:

foto

(12)    

Entre eles, Sα representa a similaridade do alvo, Sβ representa a similaridade da região e λ é geralmente definido como 0,5 para equilibrar a relação entre Sα e Sβ.

2.3    Comparação de desempenho

Para melhor verificar a eficácia do método proposto, este artigo compara 11 métodos convencionais de detecção de saliência. A Tabela 1 mostra os resultados da avaliação de 12 métodos em 3 indicadores de avaliação. Pode-se observar pelos resultados experimentais que, sem o uso de nenhum pós-processamento, o método proposto apresenta grandes vantagens em relação ao método baseado em CNN ou ao método baseado em Transformer. Conforme mostrado nos dados da Tabela 1, quando o Transformer é usado como rede backbone para extrair recursos, os resultados da avaliação são melhores do que aqueles usando CNN como rede backbone, o que também mostra que o mecanismo de auto-atenção no Transformer pode extrair recursos globais mais efetivamente. Especialmente nos conjuntos de dados ECSSD, PASCAL-S e DUTS-TE, os resultados da avaliação alcançaram os melhores, o que verifica a eficácia do método proposto. Por exemplo, no conjunto de dados ECSSD, o índice MAE é 17,64% maior que o melhor método LDF. No conjunto de dados de grande escala DUTS-TE com baixo contraste e múltiplos objetos, a pontuação Fβ melhora em 12,15%, ilustrando que o método proposto pode segmentar com precisão objetos salientes ao enfrentar objetos complexos. Os resultados da verificação do modelo em cinco grandes conjuntos de dados são mostrados na Tabela 1. Os dados na tabela verificam se o modelo possui certa generalização e robustez.

foto
Tabela 1 Comparação de desempenho de cada método

Para verificar de forma mais intuitiva a eficácia do método proposto, a Figura 3 mostra os resultados da visualização dos nove métodos em diferentes cenários. O método proposto alcança excelentes resultados na captura de objetos salientes. Além disso, beneficiando-se da eficácia da estratégia de fusão assintótica, em cenas contendo múltiplos objetos salientes, o método proposto pode detectar todos os objetos de forma mais abrangente. Conforme mostrado na primeira linha da Figura 3, o método proposto também pode localizar com precisão objetos salientes em cenas de baixo contraste. Em alvos pequenos e cenas complexas, os resultados deste trabalho podem proteger melhor o ruído de fundo e capturar com precisão objetos salientes, conforme mostrado na linha 4 da Figura 3. Vale ressaltar que, graças à introdução de recursos de arestas salientes, os resultados deste artigo podem não apenas destacar regiões salientes, mas também gerar arestas coerentes. Por exemplo, nas linhas 2 e 6, o método deste artigo pode localizar com mais precisão Objetos salientes e seus limites. A partir dos resultados da comparação na linha 7, podemos ver que nosso método pode distinguir com precisão objetos confusos ao enfrentar vários alvos. Em conclusão, o método neste artigo funciona bem em imagens com várias cenas, imagens com vários objetos, imagens de baixo contraste e cenas complexas, o que demonstra totalmente a eficácia do método neste artigo. Além disso, as curvas de recordação de precisão de diferentes métodos em conjuntos de dados DUTS-TE e ECSSD são traçadas. Conforme mostrado na Fig. 4, a linha vermelha sólida indica que o método proposto supera outros métodos na maioria dos limiares. Com a ajuda de informações complementares de arestas salientes, com informações de arestas nítidas e localização precisa, os resultados nas curvas PR são melhores.

foto
Figura 3 Comparação qualitativa de mapas de saliência com métodos convencionais atuais

foto
Figura 4 Curva PR

2.4    Experimento de ablação

Tomando DUTS-TR como o conjunto de treinamento, esta seção explora a influência de diferentes componentes na rede proposta no conjunto de dados de grande escala DUTS-TE, e os resultados do teste são mostrados na Tabela 2. O BASNet é decodificado diretamente da última camada do codificador Transformer. Pode-se ver que o efeito obtido ao upsampling direto da última camada não é ruim. Essa imprecisão pode ser devido ao fato de que o upsampling direto danificará as informações globais e locais. causado por. MAE pode ser visto ao usar fusão assintótica

foto
Tabela 2 Experimentos de ablação

As métricas são significativamente melhoradas porque a fusão assintótica pode efetivamente fundir informações de alto nível e informações locais. A incorporação da supervisão de arestas também pode melhorar o desempenho, porque as informações supervisionadas podem localizar melhor as arestas de objetos salientes. Ambos os métodos melhoraram o efeito de detecção até certo ponto e, quando os dois métodos são combinados, a precisão foi aprimorada ainda mais. Isso prova que os dois são complementares e eficazes.

Além da análise quantitativa, este trabalho também verifica o papel de cada módulo por meio da visualização. Conforme mostrado na Figura 5, quando a última camada é decodificada diretamente, o mapa de saliência obtido fica borrado, pois esta operação prejudica a informação global e a informação local. fusão. Quando o módulo de fusão assintótica (Agregação) é adicionado, as informações semânticas globais do nível superior e as informações de localização do nível raso são fundidas umas com as outras, o que pode localizar objetos salientes com mais precisão. Com a ajuda dos recursos de borda saliente, as bordas e a localização de objetos salientes são aprimoradas. A eficácia do método neste artigo é verificada novamente por meio da visualização.

foto
Figura 5 Comparação visual de diferentes componentes

3 Conclusão

Este artigo propõe um novo método de detecção de saliência baseado em Transformer, que supera as limitações das redes neurais convolucionais tradicionais, introduz codificadores Transformer para extrair recursos e resolve o problema de perda de informações locais em modelos profundos. Em segundo lugar, usando supervisão de borda, obtemos Mais recursos de borda precisos. No decodificador, o método de fusão assintótica é usado para fundir efetivamente as informações de alto nível com as informações de nível superficial e, em seguida, obter um mapa de recursos mais preciso. Sem qualquer pós-processamento, os resultados experimentais em 5 conjuntos de dados amplamente utilizados demonstram o desempenho abrangente do modelo proposto e a eficácia de cada módulo, com certa generalização e robustez. O próximo trabalho de pesquisa precisa melhorar a estrutura da rede neural convolucional profunda ou do próprio Transformer e projetar um módulo de fusão mais eficaz para tornar a localização de objetos salientes e suas bordas mais precisas.

Isenção de responsabilidade: os artigos e imagens reproduzidos na conta oficial são para fins de pesquisa científica e educacional não comercial para sua referência e discussão e não significam apoiar suas opiniões ou confirmar a autenticidade de seu conteúdo. Os direitos autorais pertencem ao autor original. Se o manuscrito reimpresso envolver direitos autorais e outros problemas, entre em contato conosco imediatamente para excluí-lo.

 Lançado "Tecnologia e Consultoria em Inteligência Artificial"

Acho que você gosta

Origin blog.csdn.net/renhongxia1/article/details/132018051
Recomendado
Clasificación