PE-YOLO

Este artigo combina o PENet com o YOLOv3 para construir uma estrutura de detecção de alvo escuro de ponta a ponta chamada PE-YOLO. O PE-YOLO adota um método de treinamento conjunto de ponta a ponta e usa apenas a perda de detecção comum para simplificar o processo de treinamento. 

Link do artigo: https://arxiv.org/abs/2307.10953

Link do código: https://github.com/XiangchenYin/PE-YOLO

Os modelos atuais de detecção de objetos alcançaram resultados promissores em muitos conjuntos de dados de referência, mas a detecção de objetos em condições de pouca luz ainda é um grande desafio. Para resolver este problema, o autor propôs o Pyramid Enhancement Network (PENet) e o combinou com o YOLOv3 para construir uma estrutura de detecção de alvos com pouca luz chamada PE-YOLO. Primeiro, o PENet usa a pirâmide Laplaciana para decompor a imagem em 4 componentes com diferentes resoluções.

Especificamente, os autores propõem um Detail Processing Module (DPM) para aprimorar os detalhes das imagens, que inclui uma ramificação de contexto e uma ramificação de borda. Além disso, os autores propõem um filtro de aprimoramento de baixa frequência (LEF) para capturar a semântica de baixa frequência e evitar o ruído de alta frequência.

O PE-YOLO adota um método de treinamento conjunto de ponta a ponta e usa apenas a perda de detecção comum para simplificar o processo de treinamento. O autor realiza experimentos no conjunto de dados de detecção de alvo ExDark em condições de pouca luz para demonstrar a eficácia do método do autor. Os resultados mostram que, em comparação com outros detectores de pouca luz e modelos de aprimoramento de pouca luz, o PE-YOLO alcança resultados avançados, atingindo 78,0% mAP e 53,6 FPS, respectivamente, e pode se adaptar à detecção de objetos em diferentes condições de pouca luz.

Nos últimos anos, o surgimento de Redes Neurais Convolucionais (CNN) promoveu o desenvolvimento do campo de detecção de objetos. Um grande número de detectores foi proposto e o desempenho em conjuntos de dados de referência também alcançou resultados satisfatórios. No entanto, a maioria dos detectores existentes são estudados em imagens de alta qualidade e condições normais. No entanto, no ambiente real, muitas vezes há muitas condições de iluminação adversas, como noite, luz escura e subexposição, que levam à degradação da qualidade da imagem e, portanto, afetam o desempenho do detector. Os modelos de percepção visual permitem que sistemas autônomos entendam o ambiente e forneçam a base para tarefas subsequentes, como planejamento de trajetória, que requer uma detecção robusta de objetos ou um modelo de segmentação semântica.

A Figura 1 é um exemplo de detecção de objetos com pouca luz. Pode-se descobrir que, se a imagem puder ser aprimorada adequadamente e mais informações potenciais do alvo desfocado original puderem ser recuperadas de acordo com as condições ambientais, o modelo de detecção de alvo poderá se adaptar a diferentes condições de pouca luz, o que também é um grande desafio para o modelo em aplicações práticas.

Atualmente, muitos métodos têm sido propostos para resolver o problema de robustez em cenas escuras. Muitos modelos de aprimoramento com pouca luz foram propostos para restaurar os detalhes da imagem e reduzir o impacto de condições de iluminação adversas. No entanto, a estrutura do modelo de aprimoramento com pouca luz é relativamente complexa, o que não é propício para o desempenho em tempo real do detector após o aprimoramento da imagem. A maioria desses métodos não pode ser treinada de ponta a ponta com detectores e requer emparelhamento de imagens escuras e normais para aprendizado supervisionado.

A detecção de objetos em condições de pouca luz também pode ser vista como um problema de adaptação de domínio. Alguns pesquisadores usam o aprendizado contraditório para converter o modelo de luz normal para luz fraca. Mas eles se concentram na correspondência da distribuição de dados, ignorando as informações potenciais contidas nas imagens com pouca luz. Nos últimos anos, alguns pesquisadores propuseram o uso de módulos de processamento de imagem diferenciável (DIP) para aprimorar imagens e treinar detectores de maneira ponta a ponta. No entanto, o DIP é um método tradicional, como o balanço de branco, que tem efeito limitado no aprimoramento da imagem.

Para resolver os problemas acima, os autores deste artigo propõem uma Pyramid Enhancement Network (PENet) para aprimorar imagens com pouca luz e capturar informações latentes sobre objetos. O autor combinou o PENet com o YOLOv3 para criar uma estrutura de detecção de alvos escuros de ponta a ponta chamada PE-YOLO. No PENet, os autores primeiro usam a pirâmide Laplaciana para decompor a imagem em vários componentes de diferentes resoluções. Em cada escala da pirâmide, os autores propõem um módulo de processamento de detalhes (DPM) e um filtro de aprimoramento de baixa frequência (LEF) para aprimorar esses componentes.

O DPM consiste em uma ramificação de contexto que aprimora globalmente os componentes capturando dependências de longo alcance e uma ramificação de borda que aprimora a textura dos componentes. O LEF usa um filtro passa-baixo dinâmico para obter informações semânticas de baixa frequência e evitar ruídos de alta frequência para enriquecer as informações de recursos. Os autores usam apenas a perda de detecção normal durante o treinamento do modelo para simplificar o processo de treinamento sem rotular claramente as imagens.

Os autores verificaram a eficácia de nosso método no conjunto de dados de detecção de objetos escuros ExDark, e os resultados mostraram que, em comparação com outros detectores de objetos escuros e modelos de aprimoramento de luz escura, o PE-YOLO alcançou resultados avançados, atingindo 78,0% mAP e 53,6 FPS, adequado para detecção de objetos em cenas escuras.

As contribuições dos autores podem ser resumidas da seguinte forma:

  • Os autores construíram uma Pyramid Enhancement Network (PENet) para melhorar diferentes imagens com pouca luz. Os autores propõem um módulo de processamento detalhado (DPM) e um filtro de aprimoramento de baixa frequência (LEF) para aprimorar os componentes da imagem.

  • Ao combinar o PENet com o YOLOv3, os autores propõem uma estrutura de detecção de objetos escuros treinada de ponta a ponta PE-YOLO para se adaptar a condições de pouca luz. Durante o treinamento, os autores usam apenas a perda de detecção normal.

  • Comparado com outros detectores de objetos escuros e modelos de aprimoramento de luz escura, nosso PE-YOLO alcança resultados de ponta no conjunto de dados ExDark, alcançando precisão e velocidade satisfatórias.

métodos relacionados

Detecção de alvo

Os modelos de detecção de objetos podem ser divididos em 3 categorias:

  • modelo de um estágio

  • modelo de dois estágios

  • Modelo baseado em âncora

A RCNN mais rápida não obtém mais propostas de região por meio de pesquisa seletiva, mas por meio de uma rede de proposta de região (RPN). Ele permite que a proposta de proposta de região, extração de características, classificação e regressão sejam treinadas de ponta a ponta na mesma rede. Cai et al.propuseram o Cascade RCNN, que cascateia múltiplas cabeças de detecção, e o nível atual melhorará os resultados de regressão e classificação do nível anterior. YOLOv3 propõe uma nova rede de extração de recursos DarkNet-53. Com base na ideia de Feature Pyramid Network (FPN), o YOLOv3 adota a fusão de recursos em várias escalas. Além disso, surgiram recentemente detectores baseados em Anchor-Free, que abandonam a âncora e a alteram para detecção baseada em pontos-chave.

aprimoramento de luz escura

O objetivo da tarefa de aprimoramento com pouca luz é melhorar a percepção visual humana, restaurando detalhes da imagem e corrigindo a distorção de cores, além de fornecer imagens de alta qualidade para tarefas avançadas de visão, como detecção de objetos. Zhang e outros propuseram Kind, que pode ser treinado por imagens emparelhadas de diferentes níveis de brilho sem GT de verdade. Guo e outros propuseram o Zero DCE, que transforma a tarefa de realce de luz escura em um problema de estimativa de curva específica da imagem. Lv et al., propuseram uma rede de realce escuro-luz multi-ramificação MBLLEN, que extrai características em diferentes níveis e gera uma imagem de saída através da fusão multi-ramificação. Cui e outros propuseram o Transformador de Iluminação Adaptativo (IAT), que constrói um Transformador de ponta a ponta por meio do aprendizado dinâmico de consultas. Depois que o modelo de aprimoramento com pouca luz restaura os detalhes da imagem, ele melhora o desempenho do detector. No entanto, a maioria dos modelos de aprimoramento de luz escura são complexos e têm um grande impacto no desempenho em tempo real do detector.

Detecção de objetos em condições severas

A detecção de objetos em condições adversas é crucial para uma percepção robusta de robôs, por isso surgiram alguns modelos robustos de detecção de objetos para condições adversas. Alguns pesquisadores transferem detectores do domínio de origem para o domínio de destino por meio de adaptação de domínio não supervisionada para se adaptar a ambientes hostis. Liu e outros propuseram o IA-YOLO, que melhora o desempenho da detecção aprimorando cada imagem de forma adaptativa. Eles usaram um módulo de processamento de imagem diferenciável (DIP) para se adaptar ao clima severo e uma pequena rede neural convolucional (CNN-PP) para ajustar os parâmetros do DIP. Com base no IA-YOLO, Kalwar e outros propuseram o GDIP-YOLO. O GDIP propõe um mecanismo de gating que permite que vários DIPs operem em paralelo. Qin et al.propuseram Rede de Aperfeiçoamento Orientada à Detecção (DENet) para detecção de objetos sob condições climáticas severas. Cui e outros propuseram a Transformação Automática de Codificação Multitarefa (MAET) para condições de pouca luz, explorando o espaço latente por trás das transformações luz-luz.

Método neste artigo

As imagens escuras têm pouca visibilidade devido à interferência da luz escura, que afeta o desempenho do detector. Para resolver este problema, o autor propôs o Pyramid Enhancement Network (PENet) e combinou o YOLOv3 para construir uma estrutura de detecção de objetos escuros PE-YOLO. Uma visão geral da estrutura PE-YOLO é mostrada na Figura 2.

Visão geral do PE-YOLO

PENet decompõe uma imagem em componentes de diferentes resoluções através de uma pirâmide Laplaciana. No PENet, o autor aprimora os componentes de cada escala por meio do módulo de processamento de detalhes proposto (DPM) e do filtro de aprimoramento de baixa frequência (LEF). Entre eles, Down significa downsampling, Gaussian significa filtro gaussiano e o tamanho do kernel gaussiano é 5 × 5. Após cada operação da pirâmide gaussiana, a largura e a altura da imagem são reduzidas pela metade, o que significa que a resolução é 1/4 da imagem original. Obviamente, a operação de downsampling da pirâmide gaussiana é irreversível. Para restaurar a imagem original de alta resolução após o upsampling, as informações perdidas, que formam os componentes da pirâmide Laplaciana, precisam ser recuperadas. A definição da pirâmide Laplaciana é a seguinte:  O autor obteve 4 componentes de diferentes escalas através da pirâmide Laplaciana, conforme mostra a Figura 3. Os autores descobriram que a pirâmide Laplaciana presta mais atenção às informações globais de baixo para cima, enquanto presta mais atenção aos detalhes locais de cima para baixo. São todas as informações perdidas no processo de downsampling da imagem, e também são alvos do aprimoramento da PENet do autor. Os autores aprimoram esses componentes com um Módulo de processamento de detalhes (DPM) e um Filtro de aprimoramento de baixa frequência (LEF), que operam em paralelo.

Os autores apresentarão o DPM e o LEF na próxima seção. Ao decompor e reconstruir a pirâmide Laplaciana, o PENet pode se tornar leve e eficiente, o que ajuda a melhorar o desempenho do PE-YOLO.

Detalhes aprimorados

Os autores propõem um Módulo de Processamento de Detalhes (DPM) para aprimorar componentes na pirâmide Laplaciana, que consiste em um ramo de contexto e um ramo de aresta.

Os detalhes do DPM são mostrados na Figura 4. As ramificações de contexto obtêm informações contextuais capturando dependências remotas e aprimorando componentes globalmente. A ramificação de borda usa dois operadores Sobel em direções diferentes para calcular gradientes de imagem, obter bordas e aprimorar a textura dos componentes.

ramo de contexto

Os autores usam blocos residuais para processar recursos antes e depois de adquirir dependências de longo alcance, e o aprendizado residual permite que informações ricas de baixa frequência sejam transferidas por meio de conexões de salto. O primeiro bloco residual altera o canal do recurso de 3 para 32 e o segundo bloco residual altera o canal do recurso de 32 para 3. A captura de informações globais em uma cena demonstrou ser benéfica para tarefas de visão de baixo nível, como aprimoramento com pouca luz.

A estrutura do branch de contexto é mostrada na Figura 4, e sua definição é a seguinte: Ramo de borda

O operador Sobel é um operador discreto que usa filtragem gaussiana e derivação diferencial. Ele encontra arestas calculando uma aproximação de gradiente. Os autores usam operadores Sobel nas direções horizontal e vertical para reextrair informações de borda por meio de filtros de convolução e usam resíduos para aprimorar o fluxo de informações. O processo é expresso como:

Filtro de aprimoramento de baixa frequência

Entre os componentes de cada escala, os componentes de baixa frequência contêm a maior parte das informações semânticas da imagem e são as principais informações para a previsão do detector. Para enriquecer a informação semântica das imagens reconstruídas, os autores propõem o Low Frequency Enhancement Filter (LEF) para capturar a informação de baixa frequência nas partes constituintes. Os detalhes do LEF são mostrados na Fig. 5. whaosoft  aiot  http://143ai.com  experimento

Resultados experimentais

Para verificar a eficácia do PE-YOLO, o autor conduziu muitos experimentos no conjunto de dados ExDark. Primeiro, os autores comparam o PE-YOLO com outros modelos de aprimoramento com pouca luz. Devido à falta de capacidade de detecção do modelo de aprimoramento com pouca luz, os autores conduzirão experimentos em todas as imagens aprimoradas usando o mesmo detector do PE-YOLO.

O autor define o limite de IoU do mAP como 0,5 e os resultados da comparação de desempenho são mostrados na Tabela 1. Os autores descobriram que usar o modelo de aumento de luz escura diretamente antes do YOLOv3 não melhorou significativamente o desempenho da detecção. O PE-YOLO do autor é 1,2% e 1,1% superior ao MBLLEN e Zero-DCE no mAP, alcançando os melhores resultados. O autor visualiza os resultados da detecção de diferentes modelos de aprimoramento de luz escura, conforme mostrado na Figura 6. Os autores descobriram que, embora MBLLEN e Zero DCE possam aumentar significativamente o brilho da imagem, eles também amplificam o ruído na imagem. O PE-YOLO captura principalmente as informações latentes dos alvos em imagens com pouca luz enquanto suprime o ruído em componentes de alta frequência, de modo que o PE-YOLO tem melhor desempenho de detecção. Os autores comparam o desempenho do PE-YOLO com outros detectores de luz escura, conforme mostrado na Tabela 2. Além disso, os autores também visualizam os resultados da detecção do detector de luz escura e do PE-YOLO, conforme mostrado na Figura 7, o que demonstra claramente que o PE-YOLO é mais preciso na detecção de objetos. Comparado com DENet e IAT-YOLO pré-treinado com o conjunto de dados LOL, PE-YOLO é 0,7% e 0,2% maior em mAP, e o PE-YOLO do autor é quase o mais alto em FPS. Os dados acima mostram que o PE-YOLO é mais adequado para detectar objetos em condições de pouca luz. Experimento de ablação  Para analisar a eficácia de cada componente no PE-YOLO, o autor realizou um estudo de ablação e os resultados são apresentados na Tabela 3. Depois de adotar a ramificação de contexto, o mAP de PE-YOLO aumenta de 76,4% para 77,0%, indicando que capturar dependências de longo alcance é eficaz para aumento. Após adotar o edge branch, o mAP aumenta de 77,0% para 77,6%, indicando que o edge branch pode realçar a textura do componente e realçar os detalhes da imagem realçada. Após a adoção do LEF, o mAP aumenta de 77,6% para 78,0%, indicando que a captura de componentes de baixa frequência ajuda a obter informações latentes nas imagens.

No final, o modelo do autor melhorou de 76,4% para 78,0% no mAP com apenas uma redução de 0,4 FPS.

 

Acho que você gosta

Origin blog.csdn.net/qq_29788741/article/details/132001622
Recomendado
Clasificación