[Visão computacional | Detecção de alvos] Arxiv Computer Vision Academic Express sobre detecção de alvos (coleção de artigos de 18 de julho)

Diretório de artigos

1. Detecção relacionada (19 artigos)

1.1 Implementação de um sistema de percepção para veículos autônomos utilizando uma rede de detecção-segmentação em SoC FPGA

Realização do Sistema de Percepção de Veículo Autônomo Baseado em Rede de Segmentação de Detecção de Chip SoC

https://arxiv.org/abs/2307.08682

insira a descrição da imagem aqui
Sistemas de percepção e controle para veículos autônomos são uma área ativa de pesquisa científica e industrial. Estas soluções devem ser caracterizadas por alta eficiência, capacidade em tempo real e eficiência energética na identificação de obstáculos e outros elementos ambientais em diferentes condições de estrada. Alcançar tal funcionalidade requer algoritmos apropriados e plataformas de computação apropriadas. Neste artigo, usamos a rede de segmentação de detecção MultiTaskV3 como base de um sistema de percepção que pode realizar ambas as funções em uma única arquitetura. Ele é devidamente treinado, quantificado e implementado em uma plataforma integrada AMD Xilinx Kria KV260 Vision AI. Ao usar tais dispositivos, os cálculos podem ser paralelizados e acelerados. Além disso, o sistema geral consome relativamente pouca energia em comparação com implementações baseadas em CPU (média de 5 watts em comparação com um mínimo de 55 watts para CPUs mais fracas) e o tamanho pequeno da plataforma (119 mm x 140 mm x 36 mm) permite seu uso em dispositivos onde o espaço disponível é limitado. Ele também atinge mAP (Mean Average Precision) acima de 97% para detecção de objetos e mIoU (Mean Intersection) acima de 90% para segmentação de imagem. O artigo também detalha o projeto do veículo de rodas Mecanum, que foi utilizado para testar a solução proposta em uma cidade simulada.

1.2 Detecção monocular de objetos 3D com aprendizado ativo semi-supervisionado guiado por LiDAR

Aprendizado ativo semi-supervisionado guiado por LiDAR para detecção monocular de objetos 3D

https://arxiv.org/abs/2307.08415

insira a descrição da imagem aqui
Propomos uma nova estrutura de aprendizado ativo semi-supervisionado (SSAL) para detecção monocular de objetos 3D com orientação lidar (MonoLiG), que explora todas as modalidades de dados coletados durante o desenvolvimento do modelo. Aproveitamos o LiDAR para orientar a seleção de dados e o treinamento de detectores 3D monoculares sem introduzir nenhuma sobrecarga no estágio de inferência. Durante o treinamento, utilizamos um professor LiDAR de aprendizado semi-supervisionado, uma estrutura multimodal monocular do aluno para extrair informações de dados não rotulados como pseudo-rótulos. Para lidar com as diferenças nas características do sensor, propomos um mecanismo de ponderação baseado em ruído de dados para reduzir o impacto da propagação do ruído da modalidade lidar para o monocular. Para selecionar quais amostras rotular para melhorar o desempenho do modelo, propomos uma pontuação de seleção baseada na consistência do sensor que também é consistente com o objetivo do treinamento. Extensos resultados experimentais nos conjuntos de dados KITTI e Waymo verificam a eficácia de nossa estrutura proposta. Em particular, nossa estratégia de seleção supera consistentemente as linhas de base de aprendizado ativo de última geração, economizando até 17% no custo de rotulagem. Nossa estratégia de treinamento alcança a classificação máxima no benchmark oficial de detecção de objetos monoculares KITTI 3D e Bird's Eye View (BEV), aumentando a Precisão Média BEV (AP) em 2,02.

1.3 Aprendizagem Ativa para Detecção de Objetos com Amostragem Informativa Não Redundante

Algoritmo de Detecção de Objeto de Aprendizagem Ativa sem Amostragem de Informação Redundante

https://arxiv.org/abs/2307.08414

insira a descrição da imagem aqui

A curadoria de um conjunto de dados informativo e representativo é essencial para melhorar o desempenho dos detectores de objetos 2D. Propomos uma nova estratégia de amostragem para aprendizagem ativa que aborda a seleção de informatividade e diversidade. Nossa estratégia integra princípios de seleção baseados em incerteza e diversidade em um objetivo de seleção conjunta, medindo a pontuação de informações coletivas de amostras selecionadas. Especificamente, nosso algoritmo NORIS proposto quantifica a influência de uma amostra de treinamento na informatividade de outras amostras semelhantes. Ao selecionar especificamente amostras que são informativas e distantes de outras amostras altamente informativas, evitamos efetivamente a redundância, mantendo um alto nível de informatividade. Além disso, em vez de usar todos os recursos da imagem para calcular a distância entre as amostras, os recursos extraídos das regiões do objeto detectadas na imagem são usados ​​para definir os recursos do objeto. Isso nos permite construir um conjunto de dados que inclui diferentes tipos de objetos, formas e ângulos. Extensos experimentos em tarefas de detecção de objetos e classificação de imagens demonstram a eficácia de nossa estratégia em linhas de base de última geração. Especificamente, nossa estratégia de seleção atinge 20% e 30% de redução no custo do rótulo em comparação com a seleção aleatória de PASCAL-VOC e KITTI, respectivamente.

1.4 Fusão de atenção de modalidade cruzada multitarefa para detecção de objetos 2D

Fusão de atenção de modalidade cruzada multitarefa para detecção de objetos 2D

https://arxiv.org/abs/2307.08339

insira a descrição da imagem aqui
A detecção precisa e robusta de objetos é fundamental para a condução autônoma. Os detectores baseados em imagem enfrentam dificuldades causadas pela baixa visibilidade em condições climáticas adversas. Portanto, a fusão radar-câmera é de particular interesse, mas apresenta desafios na fusão otimizada de fontes de dados heterogêneas. Para resolver esse problema, propomos duas novas técnicas de pré-processamento de radar para alinhar melhor os dados do radar e da câmera. Além disso, introduzimos uma rede de fusão de atenção multimodal multitarefa (MCAF-Net) para detecção de objetos, que inclui dois novos blocos de fusão. Isso permite uma utilização mais abrangente de informações em mapas de recursos. O algoritmo detecta conjuntamente objetos e segmentos de espaço livre, orientando o modelo a focar na parte mais relevante da cena, o espaço ocupado. Nosso método supera os atuais detectores de objetos baseados em fusão de câmeras de radar de última geração no conjunto de dados nuScenes e obtém resultados mais robustos em condições climáticas adversas e cenas noturnas.

1.5 AltFreezing para detecção mais geral de falsificação facial em vídeo

AltFreeting para detecção mais geral de falsificação facial em vídeo

https://arxiv.org/abs/2307.08317

insira a descrição da imagem aqui
Os modelos existentes de detecção de falsificação facial tentam distinguir imagens falsas detectando apenas artefatos espaciais (por exemplo, artefatos de geração, mesclagem) ou artefatos predominantemente temporais (por exemplo, cintilação, descontinuidade). Eles podem sofrer uma degradação significativa do desempenho quando confrontados com artefatos fora do domínio. Neste artigo, propomos capturar artefatos espaciais e temporais em um modelo para detecção de falsificação facial. Uma ideia simples é explorar modelos espaço-temporais (3D ConvNet). No entanto, descobrimos que pode ser fácil confiar em um tipo de artefato e ignorar outro. Para resolver esse problema, propomos uma nova estratégia de treinamento chamada AltFreezing para detecção de falsificação facial mais geral. AltFreezing visa encorajar o modelo a detectar artefatos espaciais e temporais. Ele divide os pesos das redes espaço-temporais em dois grupos: relacionados espacialmente e relacionados temporalmente. Dois conjuntos de pesos são congelados alternadamente durante o treinamento para que o modelo possa aprender características espaciais e temporais para distinguir vídeos reais de vídeos falsos. Além disso, introduzimos vários métodos de aumento de dados em nível de vídeo para melhorar a capacidade de generalização do modelo de detecção de falsificação. Extensos experimentos demonstram que nossa estrutura supera os métodos existentes na generalização para operações e conjuntos de dados não vistos. O código está disponível em https://github.com/ZhendongWang6/AltFreezing.

1.6 Detecção e localização de pessoas em grande escala usando câmeras aéreas olho de peixe

Detecção e localização de pessoal em grande escala com base na câmera olho de peixe suspensa

https://arxiv.org/abs/2307.08252

insira a descrição da imagem aqui
A determinação da localização tem uma ampla gama de aplicações na vida cotidiana. Neste artigo, não focamos mais na localização de fotos turísticas tiradas com câmeras em perspectiva, mas sim em projetar uma solução para localizar pessoas usando uma câmera olho de peixe suspensa. Tais soluções têm como vantagens um grande campo de visão (FOV), baixo custo, resistência à oclusão e um modo de operação não agressivo (sem necessidade de pessoal para transportar câmeras). No entanto, estudos relacionados são escassos devido à falta de dados. Para facilitar a pesquisa nesta área emocionante, apresentamos o LOAF, o primeiro conjunto de dados olho de peixe aéreo em grande escala para detecção e localização de pessoas. O LOAF tem muitos recursos essenciais, por exemplo, i) os dados abrangem uma rica diversidade de cenas, poses humanas, densidades e locais; ii) contém o maior número de pedestres anotados até o momento, ou seja, 457K caixas delimitadoras com informações de localização reais; iii) as caixas de assunto são rotuladas para serem alinhadas ao raio para enfrentar totalmente os desafios de localização. Para obter a localização, construímos uma rede de detecção de pessoas olho de peixe que explora as distorções olho de peixe por meio de uma estratégia de treinamento equivariante de rotação e prevê caixas de pessoas alinhadas ao raio de ponta a ponta. Em seguida, a posição real da pessoa detectada é calculada por meio da solução numérica do modelo olho de peixe e dos dados de altura da câmera. Experimentos extensivos no LOAF validam a superioridade do nosso detector olho de peixe. E mostre que toda a nossa solução de localização olho de peixe é capaz de localizar todas as pessoas no FOV em 0,1 segundo com precisão de 0,5 m.

1.7 ROFusion: Detecção Eficiente de Objetos usando Fusão Óptica-Radar Pontual Híbrida

ROFusion: Detecção Eficiente de Objetos Baseada em Fusão Óptica-Radar de Ponto Híbrido

https://arxiv.org/abs/2307.08233

insira a descrição da imagem aqui
O radar tem sido usado em direção autônoma e agentes inteligentes há muitos anos devido à sua robustez a condições climáticas adversas e capacidade de medir o movimento de objetos. No entanto, a percepção baseada em radar tem desvantagens, como dados de percepção não intuitivos e falta de informações semânticas e estruturais da cena. Para resolver este problema, a fusão de câmeras e sensores de radar foi estudada como uma estratégia de tendência com baixo custo, alta confiabilidade e forte capacidade de manutenção. Enquanto trabalhos recentes exploram como explorar nuvens de pontos de radar e imagens, a rica informação contextual das observações de radar é descartada. Neste artigo, propomos um método híbrido de fusão radar-óptica pontual para detecção de objetos em cenários de direção autônoma. Beneficiando-se de informações contextuais densas, a estrutura aprende representações de recursos multimodais a partir da integração de espectros e imagens de Doppler de alcance. Além disso, propomos uma nova formulação de coordenadas locais que aborda coordenadas centradas no objeto na tarefa de detecção de objetos. Resultados extensivos mostram que, com informações obtidas de imagens ópticas, podemos obter desempenho líder na detecção de objetos (recuperação de 97,69%) em comparação com o método de última geração FFT-RadNet (recuperação de 82,86%). Os estudos de ablação validam as principais escolhas de design e a praticidade de nosso método, dada a detecção imperfeita produzida pela máquina. O código estará disponível em https://github.com/LiuLiu-55/ROFusion.

1.8 Ada3D: Explorando a Redundância Espacial com Inferência Adaptativa para Detecção Eficiente de Objetos 3D

Ada3D: Detecção Eficiente de Objetos 3D Usando Redundância Espacial e Inferência Adaptativa

https://arxiv.org/abs/2307.08209

insira a descrição da imagem aqui
Os métodos baseados em Voxel alcançaram desempenho de ponta na detecção de objetos 3D em direção autônoma. No entanto, seus enormes custos computacionais e de memória representam desafios para sua aplicação em veículos com recursos limitados. Uma das razões para esse alto consumo de recursos é o grande número de pontos de fundo redundantes na nuvem de pontos lidar, levando à redundância espacial no voxel 3D e nas representações densas do mapa BEV. Para resolver esse problema, propomos uma estrutura de inferência adaptativa chamada Ada3D que se concentra na exploração da redundância espacial no nível de entrada. O Ada3D filtra de forma adaptativa entradas redundantes guiadas por um preditor de importância leve e propriedades exclusivas de nuvens de pontos lidar. Além disso, exploramos a dispersão inerente dos recursos do BEV, introduzindo a normalização de lote que preserva a dispersão. Com o Ada3D, reduzimos os voxels 3D em 40% e reduzimos a densidade dos mapas de recursos 2D BEV de 100% para 20% sem sacrificar a precisão. O Ada3D reduz os custos de computação e memória do modelo em 5x e atinge latência de GPU de ponta a ponta de 1,52x/1,45x e otimização de memória de pico de GPU de 1,5x/4,5x para backbones 3D e 2D, respectivamente.

1.9 Difusão para Confusão: Geração de Remendo Adversarial Naturalista Baseado em Modelo de Difusão para Detector de Objetos

Difusão para o Caos: Geração Adversária Naturalista Baseada em Modelo de Difusão para Detectores de Objetos

https://arxiv.org/abs/2307.08076

insira a descrição da imagem aqui
Muitos métodos de geração de patches fisicamente adversários foram amplamente propostos para proteger a privacidade individual da vigilância maliciosa usando detectores de objetos. No entanto, muitas vezes eles não conseguem gerar imagens de patch satisfatórias em termos de furtividade e desempenho de ataque sem um grande esforço para ajustar cuidadosamente os hiperparâmetros. Para resolver esse problema, propomos um novo método natural de geração de patches contraditórios baseado no Modelo de Difusão (DM). Ao amostrar as melhores imagens do modelo DM pré-treinado em imagens naturais, ele nos permite produzir de forma estável patches adversários físicos naturais e de alta qualidade para humanos sem sofrer problemas graves de colapso de modo como outros modelos generativos profundos. Até onde sabemos, somos os primeiros a propor a geração de patches adversários naturais baseados em DM para detectores de objetos. Por meio de extensos experimentos quantitativos, qualitativos e subjetivos, os resultados demonstram que o método proposto pode efetivamente gerar patches adversários de melhor qualidade e mais naturais, ao mesmo tempo em que atinge um desempenho de ataque aceitável do que outros métodos de geração de patches de última geração. Também mostramos várias compensações de geração de energia sob diferentes condições.

1.10 LafitE: Modelo de difusão latente com edição de recursos para detecção não supervisionada de anomalias multiclasse

Lafite: Detecção de Anomalia Multiclasse Não Supervisionada com Modelo de Difusão Latente Baseado na Edição de Recursos

https://arxiv.org/abs/2307.08059

insira a descrição da imagem aqui
No contexto de sistemas de manufatura flexíveis que precisam produzir produtos de diferentes tipos e quantidades com reconfiguração mínima, este artigo aborda o problema da detecção não supervisionada de anomalias multiclasse: desenvolver um modelo unificado para detectar anomalias em objetos pertencentes a várias classes, quando apenas dados normais são acessíveis. Primeiro exploramos métodos baseados em geração e investigamos modelos de difusão latente para reconstrução para aliviar o notório problema de "atalho de identidade" em métodos baseados em autoencoder. Em seguida, introduzimos uma estratégia de edição de recursos para modificar o espaço de recursos de entrada do modelo de difusão para mitigar ainda mais os "atalhos de identidade" enquanto melhoramos a qualidade da reconstrução de regiões normais, reduzindo assim previsões falsas positivas. Além disso, somos os primeiros a abordar o problema de seleção de hiperparâmetros na detecção de anomalias não supervisionadas e propor uma solução para sintetizar dados anômalos para um conjunto de pseudovalidação. Experimentos extensivos nos conjuntos de dados de referência MVTec-AD e MPDD mostram que o LafitE proposto (ou seja, Modelo de Difusão Latente com Edição de Recursos) supera significativamente os métodos de última geração em termos de AUROC médio. Os hiperparâmetros escolhidos pelo nosso conjunto de validação falso correspondem de perto ao conjunto de teste real.

1.11 Analisando o viés de gênero em modelos de texto para imagem usando a detecção de objetos

Analisando o viés de gênero em modelos de texto para imagem usando a detecção de objetos

https://arxiv.org/abs/2307.08025

insira a descrição da imagem aqui
Este trabalho propõe uma nova estratégia para medir o viés de modelos de texto para imagem. Usando pistas emparelhadas que especificam gênero e objetos de referência ambígua (por exemplo, "homem/mulher segurando um objeto"), podemos verificar se certos objetos estão associados a um gênero específico. Ao analisar os resultados da difusão estável, observamos que as pistas masculinas produziram com maior frequência objetos como gravatas, facas, caminhões, tacos de beisebol e bicicletas. Por outro lado, sugestões femininas eram mais propensas a produzir itens como bolsas, guarda-chuvas, tigelas, garrafas e canecas. Esperamos que a abordagem descrita aqui seja uma ferramenta útil para examinar o viés em modelos de texto para imagem.

1.12 Revisitando a Detecção de Objeto 3D Adaptativo de Domínio por Pseudo-Rotulação Confiável, Diversificada e Classificada

Detecção adaptativa de objetos 3D baseada em confiabilidade, variedade e equilíbrio de classe

https://arxiv.org/abs/2307.07944

insira a descrição da imagem aqui
A adaptação de domínio não supervisionada (DA) com técnicas de pseudo-rotulagem tornou-se um método importante para a detecção de objetos 3D adaptáveis ​​ao domínio. Embora eficazes, os métodos DA existentes sofrem degradação significativa do desempenho quando aplicados a configurações de treinamento multiclasse devido à coexistência de pseudo-rótulos de baixa qualidade e problemas de desequilíbrio de classe. Neste artigo, abordamos esse desafio propondo uma nova estrutura ReDB adaptada para aprender a detectar todas as classes simultaneamente. Nosso método produz caixas pseudo-3D confiáveis, diversificadas e com balanceamento de classe para orientar iterativamente o autotreinamento em domínios de destino distribuídos. Para mitigar a interferência causada por diferenças de ambiente, como o número de feixes, o Cross-Domain Examination (CDE) proposto avalia a correção de pseudo-rótulos copiando e colando instâncias de destino no ambiente de origem e medindo a consistência da previsão. Para reduzir a sobrecarga computacional e atenuar os deslocamentos de objetos (por exemplo, escala e densidade de pontos), criamos uma métrica de contagem de caixas sobrepostas (OBC) que permite a redução uniforme de objetos pseudo-rotulados com diferentes recursos geométricos. Para lidar com o desequilíbrio entre classes, aumentamos progressivamente a nuvem de pontos de destino com um conjunto balanceado de classe de instâncias de destino pseudo-rotuladas e objetos de origem, o que melhora a precisão do reconhecimento de classes frequentes e raras. Resultados experimentais em três conjuntos de dados de benchmark usando detectores 3D baseados em voxel (ou seja, SECOND) e baseados em pontos (ou seja, PointRCNN) demonstram que nossa abordagem ReDB proposta supera substancialmente os métodos de adaptação de domínio 3D existentes na tarefa nuScenes→KITTI.

1.13 KECOR: maximização da taxa de codificação do kernel para detecção ativa de objetos 3D

KECOR: detecção ativa de objetos 3D baseada na maximização da taxa de codificação do kernel

https://arxiv.org/abs/2307.07942

insira a descrição da imagem aqui
A obtenção de detectores de objetos baseados em LiDAR confiáveis ​​na condução autônoma é fundamental, mas seu sucesso depende da obtenção de um grande número de anotações 3D precisas. O aprendizado ativo (AL) tenta aliviar a carga de anotação usando algoritmos com menos rótulos e pode alcançar desempenho comparável ao aprendizado totalmente supervisionado. Embora o AL tenha se mostrado promissor, os métodos atuais priorizam a seleção de nuvens de pontos não rotuladas com alta incerteza e/ou diversidade, levando à seleção de mais instâncias para rotulagem e eficiência computacional reduzida. Neste artigo, empregamos uma nova estratégia de maximização da taxa de codificação do kernel (KECOR), que visa identificar a nuvem de pontos mais informativa para obter rótulos de uma perspectiva teórica da informação. Uma busca gulosa é usada para encontrar a nuvem de pontos desejada que maximiza o número mínimo de bits necessários para codificar os recursos latentes. Para determinar a unicidade e informatividade das amostras selecionadas de uma perspectiva de modelo, construímos uma rede proxy de cabeças de detectores 3D e calculamos o produto externo dos jacobianos de todas as camadas proxy para formar uma matriz empírica de kernel tangente neural (NTK). Para acomodar detectores de estágio único (ou seja, SECOND) e de dois estágios (ou seja, PVRCNN), incorporamos ainda a maximização da entropia de classificação com uma boa compensação entre o desempenho da detecção e o número total de caixas delimitadoras selecionadas para anotação. Experimentos extensivos em dois benchmarks 3D e conjuntos de dados de detecção 2D demonstram a superioridade e versatilidade do método proposto. Nossos resultados mostram uma redução aproximada de 44% no custo de anotação em nível de caixa e 26% no tempo de computação em comparação com os métodos AL de última geração, sem comprometer o desempenho da detecção.

1.14 Detecção de anomalias na colocação automatizada de fibras: aprendendo com as limitações de dados

Detecção de anomalias na colocação automática de fibras: aprendendo com restrições de dados

https://arxiv.org/abs/2307.07893

insira a descrição da imagem aqui
A maioria dos atuais sistemas de detecção de defeitos de posicionamento automático de fibras (AFP) são baseados em métodos de aprendizado supervisionados de ponta a ponta, que requerem um grande número de amostras de defeitos rotuladas, que não são fáceis de gerar um número suficiente de amostras. Para resolver esse problema de escassez de dados, introduzimos uma abordagem baseada em autoencoder compatível com pequenos conjuntos de dados. Felizmente, de uma perspectiva fundamental, o problema pode ser reduzido a uma classificação binária entre amostras normais e anormais. O método proposto utiliza um mapa de profundidade da superfície do layup de fibras, dividindo-o em pequenas janelas alinhadas com cada fita composta (tow). O subconjunto dessas janelas que não contêm anomalias é passado para o autoencoder para reconstruir a entrada. Como o autoencoder é treinado usando amostras normais, ele pode gerar reconstruções mais precisas para essas amostras do que para amostras anormais. Portanto, o valor do erro de reconstrução foi utilizado como um indicador quantitativo da presença ou ausência de uma potencial anomalia. Esses valores se combinam para gerar um mapa de anomalias que pode localizar defeitos de fabricação no mapa de profundidade. Os resultados mostram que, apesar do número muito limitado de varreduras do autoencoder, o método proposto pode produzir precisão de classificação binária suficiente e especificar a localização dos defeitos.

1.15 Imagens SAR multitemporais alteram a detecção e visualização usando RABASAR e GLR simplificado

Detecção e visualização de alteração de imagem SAR multitemporal com base em RABASAR e GLR simplificado

https://arxiv.org/abs/2307.07892

insira a descrição da imagem aqui
Para entender o estado de uma área alterada, informações precisas sobre a alteração precisam ser fornecidas. Portanto, detectar mudanças de diferentes tipos é importante para o monitoramento da superfície terrestre. Os sensores de radar de abertura sintética são ideais para esta tarefa devido à sua capacidade para todos os climas e todos os climas, boa precisão geométrica de aquisição e imunidade a dados de amplitude da composição atmosférica. Neste estudo, propomos uma razão de verossimilhança generalizada simplificada ( SGLR S_{GLR}SG L R), supondo que os pixels de tempo correspondentes tenham o mesmo valor de aparência equivalente (ENL). Devido aos dados de redução de ruído fornecidos pelo método Ratio-Based Multitemporal SAR Image Denoising (RABASAR), aplicamos com sucesso este método de teste de similaridade para calcular as regiões de mudança. Um novo método de índice de intensidade de mudança e um método de classificação de mudança melhorado com base no agrupamento espectral são propostos. Além disso, aplicamos razões de verossimilhança generalizadas simplificadas para detectar o tempo de magnitude máxima da mudança, bem como os horários de início e fim da mudança. Em seguida, propomos usar um método de resposta adaptado para visualizar os resultados da detecção vividamente. A eficácia do método proposto é verificada processando imagens simuladas e imagens SAR, e comparando com métodos clássicos. Em particular, experimentos numéricos demonstram que o método desenvolvido tem bom desempenho na detecção de mudanças na área agrícola, mudança na área construída, mudança na área portuária e mudança na área alagada.

1.16 Uma Pesquisa sobre Técnicas de Detecção de Mudanças em Imagens de Documentos

Uma pesquisa sobre a tecnologia de detecção de alterações em imagens de documentos

https://arxiv.org/abs/2307.07691

insira a descrição da imagem aqui
O problema de detecção de alterações em imagens tem aplicações em diversos domínios, como diagnóstico de doenças na área médica, detecção de padrões de crescimento de cidades por meio de sensoriamento remoto e detecção de alterações em documentos legais e contratos. No entanto, este artigo propõe um levantamento das principais técnicas e regras para detectar mudanças em diferentes versões de imagens de documentos. Nossa discussão sobre detecção de alterações se concentra em duas categorias - baseada em conteúdo e baseada em layout. As técnicas baseadas em conteúdo extraem e analisam de forma inteligente o conteúdo da imagem (texto ou não texto) para revelar possíveis diferenças, enquanto as técnicas baseadas em layout usam informações estruturais para prever alterações no documento. Também resumimos os experimentos de detecção de alterações usados ​​em conjuntos de dados e métricas de avaliação existentes. As deficiências e desafios dos métodos existentes são relatados, bem como algumas indicações para futuros trabalhos de pesquisa.

1.17 Detecção automática de fraude multimodal baseada em votação

Detecção automática de falsificação multicanal baseada em votação

https://arxiv.org/abs/2307.07516

insira a descrição da imagem aqui
A detecção automática de enganos tem sido um tópico de pesquisa quente, e o uso de aprendizado de máquina e aprendizado profundo para detectar automaticamente o engano trouxe uma nova luz a esse campo antigo. Neste artigo, propomos um método baseado em votação para detecção automática de fraude em vídeos usando recursos de áudio, visual e léxico. Os experimentos são conduzidos em dois conjuntos de dados, o conjunto de dados de testes da vida real da Universidade de Michigan e o conjunto de dados de detecção de enganos da Universidade de Miami. As amostras de vídeo são divididas em quadros de imagem, quadros de áudio e quadros de manuscrito. Nossa proposta de solução multimodal baseada em votação consiste em três modelos. O primeiro modelo é uma CNN para detectar falsificação de imagem, o segundo modelo é uma Support Vector Machine (SVM) no Mel Spectrogram para detectar falsificação de áudio e o terceiro modelo é Word2Vec em uma Support Vector Machine (SVM) para detectar falsificação de manuscrito. Nossa solução proposta supera as técnicas existentes. Os melhores resultados foram 97%, 96% e 92% para imagens, áudio e texto, respectivamente, e 97%, 82% e 73% para vídeo, áudio e texto para detecção de fraude da Universidade de Miami.

1.18 GastroVision: um conjunto de dados de imagem de endoscopia multiclasse para detecção de doenças gastrointestinais auxiliada por computador

Gastroscopia: um conjunto de dados de imagem endoscópica multiclasse para detecção de doenças gastrointestinais auxiliada por computador

https://arxiv.org/abs/2307.08140

insira a descrição da imagem aqui
A integração de sistemas de inteligência artificial (IA) em tempo real na prática clínica enfrenta desafios como escalabilidade e aceitabilidade. Esses desafios incluem disponibilidade de dados, resultados tendenciosos, qualidade dos dados, falta de transparência e baixo desempenho de conjuntos de dados não vistos de diferentes distribuições. A falta de conjuntos de dados diversos, rotulados com precisão e em larga escala é um grande desafio para a integração clínica. Essa escassez também se deve a restrições legais e ao extenso esforço manual necessário para a anotação precisa dos médicos. Para enfrentar esses desafios, propomos o GastroVision, um conjunto de dados de endoscopia gastrointestinal (GI) aberto multicêntrico, incluindo diferentes marcos anatômicos, anormalidades patológicas, casos de polipectomia e achados normais (24 categorias no total) do trato gastrointestinal. O conjunto de dados consiste em 8.000 imagens obtidas no Hospital B{\ae}rum na Noruega e na Universidade Karolinska na Suécia, anotadas e validadas por endoscopistas gastrointestinais experientes. Além disso, validamos a importância de nosso conjunto de dados por meio de benchmarking extensivo em modelos de linha de base populares baseados em aprendizado profundo. Acreditamos que nosso conjunto de dados pode facilitar o desenvolvimento de algoritmos de detecção e classificação de doenças gastrointestinais baseados em IA. Nosso conjunto de dados está disponível em https://osf.io/84e7f/.

1.19 Autoencoders mascarados para detecção não supervisionada de anomalias em imagens médicas

Autoencoders mascarados para detecção não supervisionada de anomalias em imagens médicas

https://arxiv.org/abs/2307.07534

insira a descrição da imagem aqui
Anormalidades patológicas exibem uma ampla variedade de manifestações em imagens médicas, dificultando a coleta e a anotação da quantidade representativa de dados necessários para treinar modelos de aprendizado profundo em um ambiente supervisionado. Portanto, neste trabalho, usamos apenas amostras saudáveis ​​para abordar a detecção de anomalias em uma estrutura de treinamento de imagens médicas. Propomos usar um modelo de autoencoder mascarado para aprender a estrutura de amostras normais e, em seguida, treinar um classificador de anomalias com base na diferença entre a imagem original e a reconstrução fornecida pelo autoencoder mascarado. Treinamos um classificador de anomalias de maneira supervisionada usando reconstruções de varreduras saudáveis ​​como amostras negativas, enquanto como amostras positivas usamos varreduras de pseudo-anomalias obtidas por nosso novo módulo de pseudo-anomalias. O módulo de pseudo-anomalia altera a reconstrução de amostras normais alterando a intensidade de várias regiões. Conduzimos experimentos em dois conjuntos de dados de imagens médicas (ou seja, BRATS2020 e LUNA16) e comparamos nosso método com quatro estruturas de detecção de anomalias de última geração (ou seja, AST, RD4AD, AnoVAEGAN e f-AnoGAN).

Acho que você gosta

Origin blog.csdn.net/wzk4869/article/details/131806419
Recomendado
Clasificación