[Visão Computacional | Detecção de Alvos] arxiv Visão Computacional Academic Express sobre Detecção de Alvos (Coleção de Documentos de 21 de junho)

1. Detecção relacionada (14 artigos)

1.1 CrossKD: destilação de conhecimento cruzada para detecção de objetos densos

CrossKD: Extração de Conhecimento Cross-Head para Detecção de Objetos Densos

Endereço de papel:

https://arxiv.org/abs/2306.11369

insira a descrição da imagem aqui
A destilação de conhecimento (KD) foi validada como uma técnica de compressão de modelo eficaz para aprender detectores de objetos compactos. Os métodos KD de última geração existentes para detecção de objetos são baseados principalmente na imitação de recursos, que geralmente é considerada melhor do que a imitação preditiva. Neste artigo, mostramos que a inconsistência nos objetivos de otimização entre o sinal de referência e o objetivo de destilação é uma das principais razões para a ineficiência da imitação preditiva. Para aliviar esse problema, propomos um esquema de destilação simples, mas eficaz, chamado CrossKD, que fornece uma função intermediária da cabeça de detecção do aluno para a cabeça de detecção do professor. As previsões cruzadas resultantes foram então forçadas a imitar as previsões do professor. Essa destilação libera a cabeça do aluno de receber sinais de supervisão contraditórios de anotações de verdade e previsões do professor, melhorando assim muito o desempenho de detecção do aluno. No MS COCO, aplicando apenas as previsões da perda simulada, nosso CrossKD melhora a precisão média do GFL ResNet-50 de 40,2 para 43,7, superando todos os métodos KD existentes para detecção de objetos. O código está disponível em www.example.com https://github.com/jbwang1997/CrossKD.

1.2 Depth e DOF Cues tornam um detector de desfoque melhor

Dicas de profundidade e DOF são melhores detectores de desfoque de desfoque

Endereço de papel:

https://arxiv.org/abs/2306.11334

insira a descrição da imagem aqui
Defocus Blur Detection (DBD) separa as áreas em foco e fora de foco em uma imagem. Os métodos anteriores confundiam erroneamente regiões uniformes em foco com regiões desfocadas e borradas, o que pode ser devido à não consideração dos fatores internos que causam o desfoque desfocado. Inspirados na lei da profundidade, profundidade de campo (DOF) e desfocagem, propomos um método chamado D-DFFNet, que combina pistas de profundidade e DOF de forma implícita. Isso permite que o modelo entenda os fenômenos de desfocagem de maneira mais natural. Nosso método propõe uma estratégia de extração de recursos profundos para obter conhecimento profundo de um modelo de estimativa de profundidade monocular pré-treinado e usa uma perda de borda de grau de liberdade para entender a relação entre graus de liberdade e profundidade. Nosso método supera métodos de ponta, benchmarks públicos e um grande conjunto de dados de benchmark recentemente coletado, EBD. O código-fonte e o conjunto de dados EBD estão disponíveis em: https: github.com/yuxinjin-whu/D-DFFNet.

1.3 CNN piramidal espaço-temporal com convolução separável em profundidade para detecção de piscar de olhos na natureza

Pirâmide espaço-temporal baseada em convolução separável em profundidade CNN para detecção de piscar na natureza

Endereço de papel:

https://arxiv.org/abs/2306.11287

insira a descrição da imagem aqui
A detecção de piscar na natureza desempenha um papel vital na detecção de fraude, detecção de fadiga ao volante, etc. Embora muitas tentativas tenham sido feitas, a maioria delas encontrou dificuldades, como diferentes resoluções das imagens oculares exportadas conforme a distância entre o rosto e a câmera muda; ou tempos de inferência curtos para requisitos de modelos de detecção leves para execução em tempo real. Neste estudo, dois problemas são abordados: como o modelo de detecção de piscar pode aprender eficientemente com diferentes resoluções de imagens oculares sob diferentes condições; e como reduzir o tamanho do modelo de detecção para um tempo de inferência mais rápido. Propomos utilizar imagens de olho de entrada upsampled e downsampled da mesma resolução como uma solução potencial para o primeiro problema e, em seguida, descobrir qual método de interpolação leva ao melhor desempenho do modelo de detecção. Para a segunda pergunta, embora a recente rede neural convolucional espaço-temporal para detecção de piscar de olhos tenha uma forte capacidade de extrair recursos espaciais e temporais, ela ainda possui um grande número de parâmetros de rede, resultando em alto tempo de inferência. Portanto, este artigo argumenta que usar convoluções separáveis ​​em profundidade em vez de camadas convolucionais regulares dentro de cada ramificação é uma solução viável.

1.4 AVOIDDS: Simulador e conjunto de dados de detecção de intrusos baseados em Aircraft Vision

AVOIDDS: Simulador e conjunto de dados de detecção de intrusos baseados em visão de aeronaves

https://arxiv.org/abs/2306.11203

insira a descrição da imagem aqui
Projetar sistemas robustos de aprendizado de máquina continua sendo um problema em aberto e requer problemas de referência que cubram a variação ambiental e a avaliação de tarefas a jusante. Neste trabalho, apresentamos o AVOIDDS, um benchmark realista de detecção de objetos para o problema de detecção e evitação de aeronaves baseada em visão. Fornecemos um conjunto de dados rotulados de 72.000 imagens fotorrealistas de aeronaves invasoras com várias condições de iluminação, condições climáticas, geometria relativa e localização geográfica. Também fornecemos uma interface para avaliar modelos treinados em fatias desse conjunto de dados para identificar mudanças no desempenho à medida que as condições ambientais mudam. Finalmente, implementamos um simulador de circuito fechado baseado em visão totalmente integrado para o problema de detecção e prevenção para avaliar o modelo treinado em tarefas de prevenção de colisão a jusante. Este benchmark nos permitirá investigar mais o projeto de sistemas robustos de aprendizado de máquina para aplicações críticas de segurança.

1.5 Compreendendo o Mapa de Profundidade Progressivamente: Separação de Intervalo de Distância Adaptável para Detecção de Objeto 3D Monocular

Entendimento Progressivo de Mapas de Profundidade: Separação Adaptável de Margens de Distância para Detecção de Objetos 3D Monoculares

Endereço de papel:

https://arxiv.org/abs/2306.10921

insira a descrição da imagem aqui
O objetivo da detecção monocular de objetos 3D é localizar objetos em diferentes cenas com apenas uma única imagem. Devido à falta de informações de profundidade, surgiram várias técnicas de detecção 3D monoculares baseadas em mapas de profundidade auxiliares da tarefa de estimativa de profundidade. Existem várias maneiras de entender a representação de um mapa de profundidade, incluindo visualizá-lo como uma nuvem de pontos pseudo-LiDAR, explorar o aprendizado implícito de ponta a ponta das informações de profundidade ou visualizá-lo como uma entrada de imagem. No entanto, esses métodos têm certas desvantagens, como a dependência da precisão do mapa de profundidade estimado e a utilização subótima do mapa de profundidade devido à sua natureza baseada em imagem. Embora métodos baseados em LiDAR e redes neurais convolucionais (CNNs) possam ser usados ​​para nuvens de pseudopontos e mapas de profundidade, respectivamente, é sempre uma alternativa. Neste artigo, propomos uma estrutura chamada Adaptive Distance Interval Separation Network (ADISN), que adota uma nova perspectiva para entender os mapas de profundidade, como uma modalidade, que fica entre o LiDAR e as imagens. Utilizamos um método de separação adaptável que particiona o mapa de profundidade em vários submapas com base na distância e trata esses submapas como uma única imagem para extração de recursos. Após a separação adaptativa, cada submapa contém apenas pixels dentro do intervalo de intervalo aprendido. Se houver objetos truncados dentro desse intervalo, haverá bordas curvas óbvias, que podemos explorar para extração de textura usando CNNs para obter informações de profundidade ricas em pixels. Enquanto isso, para aliviar a imprecisão da estimativa de profundidade, projetamos um módulo de incerteza. Para utilizar mapas de imagem e profundidade, usamos diferentes ramificações para aprender a tarefa de detecção de localização e a tarefa de aparência, respectivamente.

1.6 Detecção Robusta de Defeitos com Localização Contrastiva

Detecção robusta de defeitos com base na localização de contraste

Endereço de papel:

https://arxiv.org/abs/2306.10720

insira a descrição da imagem aqui
A detecção de defeitos visa detectar e localizar regiões fora da distribuição normal. Trabalhos anteriores dependem da normalidade modelada para identificar regiões defeituosas, o que pode levar a capacidades de generalização abaixo do ideal. Este artigo propõe uma estrutura de um estágio para detectar padrões defeituosos diretamente, sem um processo de modelagem. Essa capacidade é adotada por meio de um esforço conjunto de três partes: redes adversárias generativas (GANs), uma perda de padrão de escala recém-proposta e uma rede auxiliar com um ciclo de mascaramento dinâmico consistente. Informações explícitas que podem indicar locais de defeitos foram excluídas intencionalmente para evitar o aprendizado de qualquer mapeamento direto. Resultados experimentais na classe de textura do conjunto de dados MVTec AD mostram que o método proposto supera o método SOTA em 2,9% em termos de pontuação F1 e supera significativamente o método SOTA em termos de capacidade de generalização.

1.7 Fusão de estrutura com previsão de movimento do veículo para detecção de objetos 3D

Detecção de objetos 3D baseada em fusão de quadros e previsão de movimento de veículos

Endereço de papel:

https://arxiv.org/abs/2306.10699

insira a descrição da imagem aqui
Na detecção 3D baseada em LiDAR, as nuvens de pontos históricos contêm informações temporais ricas, que são úteis para previsões futuras. Da mesma forma, a detecção histórica deve facilitar a detecção futura. Neste artigo, propomos um método de aprimoramento de detecção, FrameFusion, que melhora os resultados de detecção de objetos 3D por meio da fusão de quadros históricos. No FrameFusion, "encaminhamos" o quadro histórico para o quadro atual e aplicamos supressão não máxima ponderada em caixas delimitadoras densas para obter quadros fundidos com caixas mescladas. Para quadros "avançados", usamos um modelo de movimento de veículo para estimar a posição futura da caixa delimitadora. No entanto, o modelo de velocidade constante comumente usado falha naturalmente em curvas de veículos, então exploramos dois modelos de movimento de veículos para resolver esse problema. No Waymo Open Dataset, nosso método FrameFusion melhora consistentemente o desempenho de vários detectores 3D, cerca de $ 2 veículo nível 2 APH, com latência insignificante e melhora ligeiramente o desempenho do método de fusão temporal MPPNet. Também realizamos uma extensa seleção de modelos de movimento experimentais.

1.8 Perda de Regularização de Energia Balanceada para Detecção Fora de Distribuição

Perda de regularização de energia balanceada para detecção de não distribuição

Endereço de papel:

https://arxiv.org/abs/2306.10485

insira a descrição da imagem aqui
No campo da detecção fora de distribuição (OOD), métodos anteriores usando dados auxiliares como dados OOD mostraram desempenho promissor. No entanto, este método fornece uma perda igual a todos os dados auxiliares para distingui-los dos inliers. No entanto, de acordo com nossa observação, há um desequilíbrio geral na distribuição dos dados OOD auxiliares entre as classes em várias tarefas. Propomos uma perda de regularização de energia balanceada que é simples, mas geralmente eficaz para uma variedade de tarefas. Nossa perda de regularização de energia balanceada explora dados auxiliares com diferentes probabilidades anteriores de classes para lidar com dados OOD desbalanceados de classe. Seu conceito principal é regularizar as amostras auxiliares da classe majoritária e mais severamente as da classe minoritária. Nosso método funciona melhor do que a perda de regularização de energia anterior na segmentação semântica, classificação de imagem de cauda longa e detecção de OOD na classificação de imagem. Além disso, nosso método alcança desempenho de ponta em duas tarefas: segmentação semântica e detecção de OOD na classificação de imagens de cauda longa. O código está disponível em www.example.com https://github.com/hyunjunChhoi/Balanced_Energy.

1.9 Ladder: Um software para rotular imagens, detectar objetos e implantar modelos recorrentemente para detecção de objetos

Ladder: Um software para rotular imagens, detectar objetos e implantar modelos iterativamente para detecção de objetos

Endereço de papel:

https://arxiv.org/abs/2306.10372

insira a descrição da imagem aqui

A detecção de objetos (OD) é uma técnica de visão computacional que permite a localização e classificação de objetos em imagens e vídeos, que tem o potencial de melhorar significativamente a eficiência da agricultura de precisão. Para simplificar o processo de aplicação do OD, desenvolvemos o Ladder - um software que fornece aos usuários uma interface gráfica de usuário (GUI) amigável que permite a rotulagem eficiente de conjuntos de dados de treinamento, treinamento de modelos OD e implantação de modelos treinados. Ladder projeta uma estrutura recorrente interativa que utiliza previsões de modelos OD pré-treinados como rotulagem de imagem inicial. Depois de adicionar rótulos humanos, as imagens recém-rotuladas podem ser adicionadas aos dados de treinamento para treinar novamente o modelo OD. Usando a mesma GUI, os usuários também podem implantar um modelo OD bem treinado para detectar novas imagens carregando o arquivo de pesos do modelo. Desenvolvemos um modelo de aprendizado profundo usando Ladder para acessar a ferrugem em faixas de trigo em imagens RGB (vermelho, verde, azul) capturadas por veículos aéreos não tripulados (UAV). O Ladder emprega o OD para avaliar diretamente a gravidade variável da ferrugem em faixas de trigo em imagens de campo sem a necessidade de colagem de fotos de imagens baseadas em drones. As acurácias para pontuações de gravidade baixa, média e alta foram de 72%, 50% e 80%, respectivamente. Este caso mostra como o Ladder pode alcançar OD em agricultura de precisão e melhoramento de culturas.

1.10 Uma Nova Perspectiva para Detecção de Eventos de Batida de Peteca

Uma Nova Perspectiva para a Detecção de Eventos de Tacada de Badminton

Endereço de papel:

https://arxiv.org/abs/2306.10293

insira a descrição da imagem aqui
Um novo método para detecção de eventos de batida de peteca é introduzido. Em vez de confiar em métodos genéricos, capturamos a ação de rebatidas do jogador por meio de inferência em uma série de imagens. Para aprender os recursos de eventos de sucesso em videoclipes, usamos especificamente um modelo de aprendizado profundo chamado SwingNet. O modelo visa capturar características e padrões relevantes relacionados ao comportamento de rebatida do badminton. Ao treinar o SwingNet nos videoclipes fornecidos, pretendemos permitir que o modelo identifique com precisão e identifique instâncias de eventos de rebatida de bola com base em suas características únicas. Além disso, aplicamos técnicas específicas de processamento de vídeo para extrair recursos anteriores dos vídeos, o que reduz significativamente a dificuldade de aprendizado do modelo. O método proposto não apenas fornece uma abordagem intuitiva e amigável, mas também propõe uma nova perspectiva para a tarefa de detecção de eventos de badminton. O código-fonte estará disponível em https://github.com/TW-yuhsi/A-New-Perspective-for-Shuttlecock-Hitting-Event-Detection em www.example.com.

1.11 Rede de interação espaço-temporal multiescala para detecção de anomalias de vídeo

Rede de interação espaço-temporal multiescala para detecção de anomalias de vídeo

Endereço de papel:

https://arxiv.org/abs/2306.10239

insira a descrição da imagem aqui
A detecção de anomalias de vídeo (VAD) é uma tarefa importante, porém desafiadora, no processamento de sinais. Como algumas anomalias não podem ser detectadas analisando apenas informações temporais ou espaciais, acredita-se que a interação entre os dois tipos de informações seja a chave para o VAD. No entanto, as arquiteturas atuais de dois fluxos limitam a interação entre os dois tipos de informação ao gargalo do codificador automático ou incorporam pixels de fundo não associados a anomalias na interação. Para tanto, propomos um VAD Multi-Scale Spatiotemporal Interaction Network (MSTI-Net). Primeiro, para prestar atenção especial aos objetos e coordenar diferenças semânticas significativas entre duas informações, propomos um módulo de fusão espaço-temporal baseado em atenção (ASTM) como uma alternativa à fusão direta tradicional. Além disso, injetamos várias conexões baseadas em ASTM entre a aparência e os caminhos de movimento da rede de dois fluxos para facilitar as interações espaço-temporais em todas as escalas possíveis. Finalmente, informações regulares aprendidas de várias escalas são registradas na memória para melhorar a discriminação entre eventos anômalos e normais durante a fase de teste. Os resultados experimentais em três conjuntos de dados padrão validam a eficácia do método, com AUC de 96,8% para UCSD Ped 2, 87,6% para CUHK Avenue e 73,9% para o conjunto de dados ShanghaiTech.

1.12 FÁBULA: Processo de Automação de Detecção de Anomalias de Tecido

FABLE: Um processo automatizado para detecção de anomalias estruturais

Endereço de papel:

https://arxiv.org/abs/2306.10089

insira a descrição da imagem aqui
Anomalias não supervisionadas na indústria têm sido um tópico de muito interesse e um trampolim para processos de automação industrial de alto desempenho. A grande maioria dos métodos orientados para a indústria concentra-se em aprender com boas amostras para detectar anomalias, embora alguns cenários industriais específicos exijam treinamento menos específico e, portanto, requeiram a generalização da detecção de anomalias. Um caso de uso óbvio é a detecção de anomalias de tecido, em que temos que lidar com uma ampla variedade de cores e tipos de tecidos e não podemos considerar a interrupção da linha de produção para treinamento. Neste artigo, propomos um processo automatizado, processo de aprendizado específico para detecção de anomalias generalizadas no domínio da detecção de defeitos de textura de tecidos industriais. Combinando capacidade de generalização e processo de aprendizado, ele fornece detecção e segmentação de anomalias rápidas e precisas. As principais contribuições deste artigo são as seguintes: um método de detecção de anomalias de textura generalizada de domínio que alcança desempenho de ponta, um método de treinamento específico rápido para uma boa extração de amostras, um método de autoavaliação baseado na criação de defeitos personalizados e Detecção automática Tecido já visto para evitar retreinamento.

1.13 Aprendizagem profunda informada por conhecimento para detecção e quantificação de lacunas usando ressonância magnética cerebral multissítio

Aprendizado profundo baseado em conhecimento prévio para a detecção e quantificação de regiões com defeitos de ressonância magnética em vários locais no cérebro

Endereço de papel:

https://arxiv.org/abs/2306.10622

insira a descrição da imagem aqui
Lacunas de suposta origem vascular, também conhecidas como infartos lacunares, são importantes na avaliação de doenças de pequenos vasos cerebrais e distúrbios cognitivos, como demência. No entanto, a classificação visual de lacunas a partir de dados de imagem é desafiadora, demorada e dependente do grau devido ao seu pequeno tamanho, dispersão e mimetismo. Embora desenvolvimentos recentes em algoritmos automatizados tenham mostrado permitir uma detecção mais rápida de lacunas, mantendo a sensibilidade, eles também mostraram um alto número de falsos positivos, tornando-os impraticáveis ​​para uso na prática clínica ou estudos em larga escala. Aqui, desenvolvemos uma nova estrutura que, além da detecção de lacunas, gera uma pontuação de carga de classificação. Essa pontuação pode fornecer uma estimativa mais realista da presença de lacunas, o que simplifica e acelera efetivamente a avaliação por imagem das lacunas. Nossa hipótese é que a combinação de pontuações de detecção e classificação torna o programa menos sensível a rótulos ruidosos.

1.14 Formação de feixe de radar MIMO guiada por visão para detecção aprimorada de sinais vitais em multidões

Radar MIMO guiado por visão Beamforming para detecção aprimorada de sinais vitais de multidão

Endereço de papel:

https://arxiv.org/abs/2306.10515

insira a descrição da imagem aqui
O radar, uma técnica de sensoriamento remoto, é usado há décadas para analisar a atividade humana. Apesar de todas as características importantes de sensibilidade de movimento, proteção de privacidade, penetração, etc., os radares têm liberdade espacial limitada em comparação com sensores ópticos, tornando desafiador detectar ambientes lotados sem informações prévias. Neste artigo, desenvolvemos um novo sistema de detecção dupla no qual o sensor de visão é utilizado para direcionar a formação de feixe digital em um radar de entrada múltipla e saída múltipla (MIMO). Além disso, desenvolvemos um algoritmo de calibração para alinhar os dois tipos de sensores e mostramos que o sistema dual calibrado atinge uma precisão de cerca de dois centímetros com um campo de visão de 7 5 ∘ 75^\circ no espaço tridimensional7 5∘por 6 5 ∘ 65^\circ6 5 e o alcance é de dois metros. Por fim, mostramos que o método proposto é capaz de detectar sinais vitais simultaneamente para um conjunto denso de indivíduos, sentados e em pé, em um ambiente desordenado, o que destaca uma direção promissora em ambientes realistas.Detecção de sinais vitais.

Acho que você gosta

Origin blog.csdn.net/wzk4869/article/details/131333449
Recomendado
Clasificación