Diretório de artigos
- 1. Detecção relacionada (14 artigos)
-
- 1.1 CrossKD: destilação de conhecimento cruzada para detecção de objetos densos
- 1.2 Depth e DOF Cues tornam um detector de desfoque melhor
- 1.3 CNN piramidal espaço-temporal com convolução separável em profundidade para detecção de piscar de olhos na natureza
- 1.4 AVOIDDS: Simulador e conjunto de dados de detecção de intrusos baseados em Aircraft Vision
- 1.5 Compreendendo o Mapa de Profundidade Progressivamente: Separação de Intervalo de Distância Adaptável para Detecção de Objeto 3D Monocular
- 1.6 Detecção Robusta de Defeitos com Localização Contrastiva
- 1.7 Fusão de estrutura com previsão de movimento do veículo para detecção de objetos 3D
- 1.8 Perda de Regularização de Energia Balanceada para Detecção Fora de Distribuição
- 1.9 Ladder: Um software para rotular imagens, detectar objetos e implantar modelos recorrentemente para detecção de objetos
- 1.10 Uma Nova Perspectiva para Detecção de Eventos de Batida de Peteca
- 1.11 Rede de interação espaço-temporal multiescala para detecção de anomalias de vídeo
- 1.12 FÁBULA: Processo de Automação de Detecção de Anomalias de Tecido
- 1.13 Aprendizagem profunda informada por conhecimento para detecção e quantificação de lacunas usando ressonância magnética cerebral multissítio
- 1.14 Formação de feixe de radar MIMO guiada por visão para detecção aprimorada de sinais vitais em multidões
1. Detecção relacionada (14 artigos)
1.1 CrossKD: destilação de conhecimento cruzada para detecção de objetos densos
CrossKD: Extração de Conhecimento Cross-Head para Detecção de Objetos Densos
Endereço de papel:
https://arxiv.org/abs/2306.11369
A destilação de conhecimento (KD) foi validada como uma técnica de compressão de modelo eficaz para aprender detectores de objetos compactos. Os métodos KD de última geração existentes para detecção de objetos são baseados principalmente na imitação de recursos, que geralmente é considerada melhor do que a imitação preditiva. Neste artigo, mostramos que a inconsistência nos objetivos de otimização entre o sinal de referência e o objetivo de destilação é uma das principais razões para a ineficiência da imitação preditiva. Para aliviar esse problema, propomos um esquema de destilação simples, mas eficaz, chamado CrossKD, que fornece uma função intermediária da cabeça de detecção do aluno para a cabeça de detecção do professor. As previsões cruzadas resultantes foram então forçadas a imitar as previsões do professor. Essa destilação libera a cabeça do aluno de receber sinais de supervisão contraditórios de anotações de verdade e previsões do professor, melhorando assim muito o desempenho de detecção do aluno. No MS COCO, aplicando apenas as previsões da perda simulada, nosso CrossKD melhora a precisão média do GFL ResNet-50 de 40,2 para 43,7, superando todos os métodos KD existentes para detecção de objetos. O código está disponível em www.example.com https://github.com/jbwang1997/CrossKD.
1.2 Depth e DOF Cues tornam um detector de desfoque melhor
Dicas de profundidade e DOF são melhores detectores de desfoque de desfoque
Endereço de papel:
https://arxiv.org/abs/2306.11334
Defocus Blur Detection (DBD) separa as áreas em foco e fora de foco em uma imagem. Os métodos anteriores confundiam erroneamente regiões uniformes em foco com regiões desfocadas e borradas, o que pode ser devido à não consideração dos fatores internos que causam o desfoque desfocado. Inspirados na lei da profundidade, profundidade de campo (DOF) e desfocagem, propomos um método chamado D-DFFNet, que combina pistas de profundidade e DOF de forma implícita. Isso permite que o modelo entenda os fenômenos de desfocagem de maneira mais natural. Nosso método propõe uma estratégia de extração de recursos profundos para obter conhecimento profundo de um modelo de estimativa de profundidade monocular pré-treinado e usa uma perda de borda de grau de liberdade para entender a relação entre graus de liberdade e profundidade. Nosso método supera métodos de ponta, benchmarks públicos e um grande conjunto de dados de benchmark recentemente coletado, EBD. O código-fonte e o conjunto de dados EBD estão disponíveis em: https: github.com/yuxinjin-whu/D-DFFNet.
1.3 CNN piramidal espaço-temporal com convolução separável em profundidade para detecção de piscar de olhos na natureza
Pirâmide espaço-temporal baseada em convolução separável em profundidade CNN para detecção de piscar na natureza
Endereço de papel:
https://arxiv.org/abs/2306.11287
A detecção de piscar na natureza desempenha um papel vital na detecção de fraude, detecção de fadiga ao volante, etc. Embora muitas tentativas tenham sido feitas, a maioria delas encontrou dificuldades, como diferentes resoluções das imagens oculares exportadas conforme a distância entre o rosto e a câmera muda; ou tempos de inferência curtos para requisitos de modelos de detecção leves para execução em tempo real. Neste estudo, dois problemas são abordados: como o modelo de detecção de piscar pode aprender eficientemente com diferentes resoluções de imagens oculares sob diferentes condições; e como reduzir o tamanho do modelo de detecção para um tempo de inferência mais rápido. Propomos utilizar imagens de olho de entrada upsampled e downsampled da mesma resolução como uma solução potencial para o primeiro problema e, em seguida, descobrir qual método de interpolação leva ao melhor desempenho do modelo de detecção. Para a segunda pergunta, embora a recente rede neural convolucional espaço-temporal para detecção de piscar de olhos tenha uma forte capacidade de extrair recursos espaciais e temporais, ela ainda possui um grande número de parâmetros de rede, resultando em alto tempo de inferência. Portanto, este artigo argumenta que usar convoluções separáveis em profundidade em vez de camadas convolucionais regulares dentro de cada ramificação é uma solução viável.
1.4 AVOIDDS: Simulador e conjunto de dados de detecção de intrusos baseados em Aircraft Vision
AVOIDDS: Simulador e conjunto de dados de detecção de intrusos baseados em visão de aeronaves
https://arxiv.org/abs/2306.11203
Projetar sistemas robustos de aprendizado de máquina continua sendo um problema em aberto e requer problemas de referência que cubram a variação ambiental e a avaliação de tarefas a jusante. Neste trabalho, apresentamos o AVOIDDS, um benchmark realista de detecção de objetos para o problema de detecção e evitação de aeronaves baseada em visão. Fornecemos um conjunto de dados rotulados de 72.000 imagens fotorrealistas de aeronaves invasoras com várias condições de iluminação, condições climáticas, geometria relativa e localização geográfica. Também fornecemos uma interface para avaliar modelos treinados em fatias desse conjunto de dados para identificar mudanças no desempenho à medida que as condições ambientais mudam. Finalmente, implementamos um simulador de circuito fechado baseado em visão totalmente integrado para o problema de detecção e prevenção para avaliar o modelo treinado em tarefas de prevenção de colisão a jusante. Este benchmark nos permitirá investigar mais o projeto de sistemas robustos de aprendizado de máquina para aplicações críticas de segurança.
1.5 Compreendendo o Mapa de Profundidade Progressivamente: Separação de Intervalo de Distância Adaptável para Detecção de Objeto 3D Monocular
Entendimento Progressivo de Mapas de Profundidade: Separação Adaptável de Margens de Distância para Detecção de Objetos 3D Monoculares
Endereço de papel:
https://arxiv.org/abs/2306.10921
O objetivo da detecção monocular de objetos 3D é localizar objetos em diferentes cenas com apenas uma única imagem. Devido à falta de informações de profundidade, surgiram várias técnicas de detecção 3D monoculares baseadas em mapas de profundidade auxiliares da tarefa de estimativa de profundidade. Existem várias maneiras de entender a representação de um mapa de profundidade, incluindo visualizá-lo como uma nuvem de pontos pseudo-LiDAR, explorar o aprendizado implícito de ponta a ponta das informações de profundidade ou visualizá-lo como uma entrada de imagem. No entanto, esses métodos têm certas desvantagens, como a dependência da precisão do mapa de profundidade estimado e a utilização subótima do mapa de profundidade devido à sua natureza baseada em imagem. Embora métodos baseados em LiDAR e redes neurais convolucionais (CNNs) possam ser usados para nuvens de pseudopontos e mapas de profundidade, respectivamente, é sempre uma alternativa. Neste artigo, propomos uma estrutura chamada Adaptive Distance Interval Separation Network (ADISN), que adota uma nova perspectiva para entender os mapas de profundidade, como uma modalidade, que fica entre o LiDAR e as imagens. Utilizamos um método de separação adaptável que particiona o mapa de profundidade em vários submapas com base na distância e trata esses submapas como uma única imagem para extração de recursos. Após a separação adaptativa, cada submapa contém apenas pixels dentro do intervalo de intervalo aprendido. Se houver objetos truncados dentro desse intervalo, haverá bordas curvas óbvias, que podemos explorar para extração de textura usando CNNs para obter informações de profundidade ricas em pixels. Enquanto isso, para aliviar a imprecisão da estimativa de profundidade, projetamos um módulo de incerteza. Para utilizar mapas de imagem e profundidade, usamos diferentes ramificações para aprender a tarefa de detecção de localização e a tarefa de aparência, respectivamente.
1.6 Detecção Robusta de Defeitos com Localização Contrastiva
Detecção robusta de defeitos com base na localização de contraste
Endereço de papel:
https://arxiv.org/abs/2306.10720
A detecção de defeitos visa detectar e localizar regiões fora da distribuição normal. Trabalhos anteriores dependem da normalidade modelada para identificar regiões defeituosas, o que pode levar a capacidades de generalização abaixo do ideal. Este artigo propõe uma estrutura de um estágio para detectar padrões defeituosos diretamente, sem um processo de modelagem. Essa capacidade é adotada por meio de um esforço conjunto de três partes: redes adversárias generativas (GANs), uma perda de padrão de escala recém-proposta e uma rede auxiliar com um ciclo de mascaramento dinâmico consistente. Informações explícitas que podem indicar locais de defeitos foram excluídas intencionalmente para evitar o aprendizado de qualquer mapeamento direto. Resultados experimentais na classe de textura do conjunto de dados MVTec AD mostram que o método proposto supera o método SOTA em 2,9% em termos de pontuação F1 e supera significativamente o método SOTA em termos de capacidade de generalização.
1.7 Fusão de estrutura com previsão de movimento do veículo para detecção de objetos 3D
Detecção de objetos 3D baseada em fusão de quadros e previsão de movimento de veículos
Endereço de papel:
https://arxiv.org/abs/2306.10699
Na detecção 3D baseada em LiDAR, as nuvens de pontos históricos contêm informações temporais ricas, que são úteis para previsões futuras. Da mesma forma, a detecção histórica deve facilitar a detecção futura. Neste artigo, propomos um método de aprimoramento de detecção, FrameFusion, que melhora os resultados de detecção de objetos 3D por meio da fusão de quadros históricos. No FrameFusion, "encaminhamos" o quadro histórico para o quadro atual e aplicamos supressão não máxima ponderada em caixas delimitadoras densas para obter quadros fundidos com caixas mescladas. Para quadros "avançados", usamos um modelo de movimento de veículo para estimar a posição futura da caixa delimitadora. No entanto, o modelo de velocidade constante comumente usado falha naturalmente em curvas de veículos, então exploramos dois modelos de movimento de veículos para resolver esse problema. No Waymo Open Dataset, nosso método FrameFusion melhora consistentemente o desempenho de vários detectores 3D, cerca de $ 2 veículo nível 2 APH, com latência insignificante e melhora ligeiramente o desempenho do método de fusão temporal MPPNet. Também realizamos uma extensa seleção de modelos de movimento experimentais.
1.8 Perda de Regularização de Energia Balanceada para Detecção Fora de Distribuição
Perda de regularização de energia balanceada para detecção de não distribuição
Endereço de papel:
https://arxiv.org/abs/2306.10485
No campo da detecção fora de distribuição (OOD), métodos anteriores usando dados auxiliares como dados OOD mostraram desempenho promissor. No entanto, este método fornece uma perda igual a todos os dados auxiliares para distingui-los dos inliers. No entanto, de acordo com nossa observação, há um desequilíbrio geral na distribuição dos dados OOD auxiliares entre as classes em várias tarefas. Propomos uma perda de regularização de energia balanceada que é simples, mas geralmente eficaz para uma variedade de tarefas. Nossa perda de regularização de energia balanceada explora dados auxiliares com diferentes probabilidades anteriores de classes para lidar com dados OOD desbalanceados de classe. Seu conceito principal é regularizar as amostras auxiliares da classe majoritária e mais severamente as da classe minoritária. Nosso método funciona melhor do que a perda de regularização de energia anterior na segmentação semântica, classificação de imagem de cauda longa e detecção de OOD na classificação de imagem. Além disso, nosso método alcança desempenho de ponta em duas tarefas: segmentação semântica e detecção de OOD na classificação de imagens de cauda longa. O código está disponível em www.example.com https://github.com/hyunjunChhoi/Balanced_Energy.
1.9 Ladder: Um software para rotular imagens, detectar objetos e implantar modelos recorrentemente para detecção de objetos
Ladder: Um software para rotular imagens, detectar objetos e implantar modelos iterativamente para detecção de objetos
Endereço de papel:
https://arxiv.org/abs/2306.10372
A detecção de objetos (OD) é uma técnica de visão computacional que permite a localização e classificação de objetos em imagens e vídeos, que tem o potencial de melhorar significativamente a eficiência da agricultura de precisão. Para simplificar o processo de aplicação do OD, desenvolvemos o Ladder - um software que fornece aos usuários uma interface gráfica de usuário (GUI) amigável que permite a rotulagem eficiente de conjuntos de dados de treinamento, treinamento de modelos OD e implantação de modelos treinados. Ladder projeta uma estrutura recorrente interativa que utiliza previsões de modelos OD pré-treinados como rotulagem de imagem inicial. Depois de adicionar rótulos humanos, as imagens recém-rotuladas podem ser adicionadas aos dados de treinamento para treinar novamente o modelo OD. Usando a mesma GUI, os usuários também podem implantar um modelo OD bem treinado para detectar novas imagens carregando o arquivo de pesos do modelo. Desenvolvemos um modelo de aprendizado profundo usando Ladder para acessar a ferrugem em faixas de trigo em imagens RGB (vermelho, verde, azul) capturadas por veículos aéreos não tripulados (UAV). O Ladder emprega o OD para avaliar diretamente a gravidade variável da ferrugem em faixas de trigo em imagens de campo sem a necessidade de colagem de fotos de imagens baseadas em drones. As acurácias para pontuações de gravidade baixa, média e alta foram de 72%, 50% e 80%, respectivamente. Este caso mostra como o Ladder pode alcançar OD em agricultura de precisão e melhoramento de culturas.
1.10 Uma Nova Perspectiva para Detecção de Eventos de Batida de Peteca
Uma Nova Perspectiva para a Detecção de Eventos de Tacada de Badminton
Endereço de papel:
https://arxiv.org/abs/2306.10293
Um novo método para detecção de eventos de batida de peteca é introduzido. Em vez de confiar em métodos genéricos, capturamos a ação de rebatidas do jogador por meio de inferência em uma série de imagens. Para aprender os recursos de eventos de sucesso em videoclipes, usamos especificamente um modelo de aprendizado profundo chamado SwingNet. O modelo visa capturar características e padrões relevantes relacionados ao comportamento de rebatida do badminton. Ao treinar o SwingNet nos videoclipes fornecidos, pretendemos permitir que o modelo identifique com precisão e identifique instâncias de eventos de rebatida de bola com base em suas características únicas. Além disso, aplicamos técnicas específicas de processamento de vídeo para extrair recursos anteriores dos vídeos, o que reduz significativamente a dificuldade de aprendizado do modelo. O método proposto não apenas fornece uma abordagem intuitiva e amigável, mas também propõe uma nova perspectiva para a tarefa de detecção de eventos de badminton. O código-fonte estará disponível em https://github.com/TW-yuhsi/A-New-Perspective-for-Shuttlecock-Hitting-Event-Detection em www.example.com.
1.11 Rede de interação espaço-temporal multiescala para detecção de anomalias de vídeo
Rede de interação espaço-temporal multiescala para detecção de anomalias de vídeo
Endereço de papel:
https://arxiv.org/abs/2306.10239
A detecção de anomalias de vídeo (VAD) é uma tarefa importante, porém desafiadora, no processamento de sinais. Como algumas anomalias não podem ser detectadas analisando apenas informações temporais ou espaciais, acredita-se que a interação entre os dois tipos de informações seja a chave para o VAD. No entanto, as arquiteturas atuais de dois fluxos limitam a interação entre os dois tipos de informação ao gargalo do codificador automático ou incorporam pixels de fundo não associados a anomalias na interação. Para tanto, propomos um VAD Multi-Scale Spatiotemporal Interaction Network (MSTI-Net). Primeiro, para prestar atenção especial aos objetos e coordenar diferenças semânticas significativas entre duas informações, propomos um módulo de fusão espaço-temporal baseado em atenção (ASTM) como uma alternativa à fusão direta tradicional. Além disso, injetamos várias conexões baseadas em ASTM entre a aparência e os caminhos de movimento da rede de dois fluxos para facilitar as interações espaço-temporais em todas as escalas possíveis. Finalmente, informações regulares aprendidas de várias escalas são registradas na memória para melhorar a discriminação entre eventos anômalos e normais durante a fase de teste. Os resultados experimentais em três conjuntos de dados padrão validam a eficácia do método, com AUC de 96,8% para UCSD Ped 2, 87,6% para CUHK Avenue e 73,9% para o conjunto de dados ShanghaiTech.
1.12 FÁBULA: Processo de Automação de Detecção de Anomalias de Tecido
FABLE: Um processo automatizado para detecção de anomalias estruturais
Endereço de papel:
https://arxiv.org/abs/2306.10089
Anomalias não supervisionadas na indústria têm sido um tópico de muito interesse e um trampolim para processos de automação industrial de alto desempenho. A grande maioria dos métodos orientados para a indústria concentra-se em aprender com boas amostras para detectar anomalias, embora alguns cenários industriais específicos exijam treinamento menos específico e, portanto, requeiram a generalização da detecção de anomalias. Um caso de uso óbvio é a detecção de anomalias de tecido, em que temos que lidar com uma ampla variedade de cores e tipos de tecidos e não podemos considerar a interrupção da linha de produção para treinamento. Neste artigo, propomos um processo automatizado, processo de aprendizado específico para detecção de anomalias generalizadas no domínio da detecção de defeitos de textura de tecidos industriais. Combinando capacidade de generalização e processo de aprendizado, ele fornece detecção e segmentação de anomalias rápidas e precisas. As principais contribuições deste artigo são as seguintes: um método de detecção de anomalias de textura generalizada de domínio que alcança desempenho de ponta, um método de treinamento específico rápido para uma boa extração de amostras, um método de autoavaliação baseado na criação de defeitos personalizados e Detecção automática Tecido já visto para evitar retreinamento.
1.13 Aprendizagem profunda informada por conhecimento para detecção e quantificação de lacunas usando ressonância magnética cerebral multissítio
Aprendizado profundo baseado em conhecimento prévio para a detecção e quantificação de regiões com defeitos de ressonância magnética em vários locais no cérebro
Endereço de papel:
https://arxiv.org/abs/2306.10622
Lacunas de suposta origem vascular, também conhecidas como infartos lacunares, são importantes na avaliação de doenças de pequenos vasos cerebrais e distúrbios cognitivos, como demência. No entanto, a classificação visual de lacunas a partir de dados de imagem é desafiadora, demorada e dependente do grau devido ao seu pequeno tamanho, dispersão e mimetismo. Embora desenvolvimentos recentes em algoritmos automatizados tenham mostrado permitir uma detecção mais rápida de lacunas, mantendo a sensibilidade, eles também mostraram um alto número de falsos positivos, tornando-os impraticáveis para uso na prática clínica ou estudos em larga escala. Aqui, desenvolvemos uma nova estrutura que, além da detecção de lacunas, gera uma pontuação de carga de classificação. Essa pontuação pode fornecer uma estimativa mais realista da presença de lacunas, o que simplifica e acelera efetivamente a avaliação por imagem das lacunas. Nossa hipótese é que a combinação de pontuações de detecção e classificação torna o programa menos sensível a rótulos ruidosos.
1.14 Formação de feixe de radar MIMO guiada por visão para detecção aprimorada de sinais vitais em multidões
Radar MIMO guiado por visão Beamforming para detecção aprimorada de sinais vitais de multidão
Endereço de papel:
https://arxiv.org/abs/2306.10515
O radar, uma técnica de sensoriamento remoto, é usado há décadas para analisar a atividade humana. Apesar de todas as características importantes de sensibilidade de movimento, proteção de privacidade, penetração, etc., os radares têm liberdade espacial limitada em comparação com sensores ópticos, tornando desafiador detectar ambientes lotados sem informações prévias. Neste artigo, desenvolvemos um novo sistema de detecção dupla no qual o sensor de visão é utilizado para direcionar a formação de feixe digital em um radar de entrada múltipla e saída múltipla (MIMO). Além disso, desenvolvemos um algoritmo de calibração para alinhar os dois tipos de sensores e mostramos que o sistema dual calibrado atinge uma precisão de cerca de dois centímetros com um campo de visão de 7 5 ∘ 75^\circ no espaço tridimensional7 5∘por 6 5 ∘ 65^\circ6 5∘ e o alcance é de dois metros. Por fim, mostramos que o método proposto é capaz de detectar sinais vitais simultaneamente para um conjunto denso de indivíduos, sentados e em pé, em um ambiente desordenado, o que destaca uma direção promissora em ambientes realistas.Detecção de sinais vitais.