Universidade Nacional de Ciência e Tecnologia. Processamento de Imagens e Visão Computacional: Questões de Revisão Final e Resumo dos Pontos de Conhecimento (2)

1. Descreva resumidamente o processo de cálculo do Bag of Visual Word e projete um sistema de classificação de imagens baseado no Bag of Visual Word;

(1) Extração e descrição de recursos: Use o operador SIFT para extrair os pontos de interesse e descrições de recursos da imagem e gerar vários pontos-chave e seus descritores para cada imagem no conjunto de treinamento.

(2) Construção do dicionário visual: agrupar todos os recursos SIFT extraídos (assumindo K clusters), e cada centro do cluster é uma palavra visual, obtendo assim um dicionário visual.

(3) Representação de imagem: Extraia recursos SIFT da imagem, quantifique-os em uma representação vetorial de palavras visuais, conte o número de ocorrências de cada palavra e represente cada imagem como um vetor K-dimensional.

Para tarefas de classificação de imagens: primeiro use o pacote de palavras visuais para extrair recursos e, em seguida, selecione um classificador apropriado para classificação e reconhecimento, por exemplo, você pode escolher o algoritmo KNN ou SVM para classificação.

2. Descreva brevemente as deficiências do método de diferença de quadro para detectar objetos em movimento e discuta possíveis métodos de melhoria, a ideia principal e o método básico de modelagem de fundo.

Desvantagens do método de diferença de quadro: é muito afetado pelo ruído. Para cenas dinâmicas , devido ao movimento relativo complexo entre a cena e a câmera, o método tradicional de diferença de quadro não é mais aplicável. Como estimar e compensar o movimento global tornou-se a chave para o problema.

Método aprimorado do método de diferença de quadro: a modelagem de plano de fundo é um método aprimorado. Para detectar um objeto em movimento em uma cena em movimento, a chave é estimar o movimento da cena, compensar o movimento da cena por meio dos parâmetros de movimento estimados e, finalmente, obter o objeto em movimento pelo método de diferença de quadro.

A ideia principal da modelagem de fundo é usar as informações redundantes de imagens de sequência no tempo e no espaço para separar o alvo em movimento na cena do fundo. Ao modelar primeiro o plano de fundo e depois comparar o quadro atual com o modelo de plano de fundo, o primeiro plano é diferenciado do plano de fundo, ou seja, a subtração do plano de fundo.

Método básico de modelagem de fundo: Espera-se que um modelo de fundo que possa se adaptar às mudanças ambientais possa ser estabelecido. Os modelos estatísticos de fundo incluem modelos Gaussianos simples, modelos Gaussianos mistos, modelos não paramétricos, etc. O modelo gaussiano único assume que a distribuição de cada característica de pixel no domínio do tempo pode ser descrita por uma distribuição gaussiana única. O modelo gaussiano misto (cada componente corresponde a um peso, e os componentes gaussianos são classificados em ordem decrescente de acordo com o peso dividido pela variância, os primeiros componentes b são usados como distribuição de fundo e os demais componentes são usados como primeiro plano distribuição) pode descrever o fundo com formas de distribuição mais complexas. O GMM clássico é baseado na modelagem de pixels e ignora as informações da estrutura da imagem, podendo ser melhorado com a introdução de MRF, estimativa de densidade não paramétrica e seleção adaptativa do número de gaussianos.

3. Alguns conceitos básicos de rede neural convolucional, como campo receptivo, dropout, função de ativação, pooling, etc.;

Composição: camada de entrada, camada oculta {camada convolucional, camada de pooling, camada totalmente conectada}, camada de saída

Características: conexões locais, pesos compartilhados

Campo receptivo: tamanho do kernel da convolução. Outra explicação: os pontos de pixel no mapa de recursos (mapa de recursos) gerados por cada camada da rede neural convolucional mapeiam o tamanho da área na imagem de entrada e o valor neste ponto depende apenas do valor na área do campo receptivo .

Dropout: Durante o processo de treinamento (incluindo propagação para frente e para trás), os neurônios são desativados aleatoriamente com uma certa probabilidade, o que pode efetivamente prevenir o overfitting.

Função de ativação: Introduzir fatores não lineares, atuar na saída dos nós por meio de funções não lineares, gerar informações de ativação e passá-las para a próxima camada da rede.

Pooling: É um método de downsampling que agrega e conta feições em diferentes posições no mesmo bloco para reduzir o tamanho do mapa de feições.

4. Por favor, explique o que é Over-fitting (over-fitting) e discuta soluções para evitar o Over-fitting;

Overfitting: O fenômeno em que o modelo tem um pequeno erro no conjunto de treinamento, mas um grande erro no conjunto de teste. Geralmente ocorre quando o modelo é muito complexo, como muitos parâmetros.

Soluções: Regularização (L1, L2), aumento de amostras de dados, rescisão antecipada, Dropout

5. Descreva brevemente o papel das informações de movimento no padrão de codificação de vídeo MPEG-1 e entenda o papel do quadro I, quadro B e quadro P;

Utilize informações de movimento, adote algoritmo de compensação de movimento, remova dados redundantes de tempo e, assim, realize a compressão.

I: Intra frame: Um I frame contém uma imagem com conteúdo completo, que é usado como referência para o codec de outras imagens de frame, por isso é o que costumamos chamar de key frame.
P: quadro preditivo unidirecional: um quadro P refere-se a uma imagem que usa o quadro I que apareceu antes dele como uma imagem de referência, e codificar o quadro P é, na verdade, codificar a diferença entre eles.
B: Quadro preditivo bidirecional: Um quadro B é uma imagem que utiliza as imagens anteriores e posteriores a ele, ou seja, o quadro I e o quadro P, como imagens de referência. Codificar o quadro B é codificar a diferença entre ele e o quadro I e o quadro P, respectivamente.

6. Os conceitos básicos e principais métodos de rastreamento de alvos, explique a relação e a diferença entre rastreamento de alvos e detecção de alvos;

O conceito de rastreamento de alvo: através do processamento e análise de dados de vídeo, o mesmo alvo em movimento em diferentes quadros na sequência de imagens é associado para calcular os parâmetros de movimento do alvo.

O conceito de rastreamento de alvo único: no primeiro quadro, dado o alvo a ser rastreado, na sequência de vídeo subsequente, determine a posição do alvo em cada quadro.

A relação entre detecção de alvo e rastreamento:

Primeiro detecte e depois rastreie, geralmente usado para rastreamento de vários alvos, primeiro detecte o alvo em movimento em cada quadro e, em seguida, combine os alvos nos quadros anteriores e subsequentes para obter a associação de trajetória.
Rastreamento durante a detecção: Combinando a detecção e rastreamento do alvo, usando os resultados do rastreamento para determinar o alcance da área a ser processada durante a detecção e usando a detecção para obter a observação do estado do alvo durante o rastreamento. Primeiramente, um modelo de características que descreve o alvo é estabelecido e, após a inicialização do quadro inicial, a busca de correspondência é realizada continuamente nos quadros subsequentes.

Os principais métodos de rastreamento de objetos:

Dividido em duas categorias:

Modelo generativo: selecione o patch de imagem mais semelhante ao modelo de aparência de destino das amostras candidatas como o resultado do rastreamento
Modelo discriminativo: Modele o problema de rastreamento como um problema de classificação binária, ou seja, para julgar se cada amostra candidata é uma amostra de fundo ou uma amostra alvo

Existem os seguintes métodos:

Correspondência baseada em recursos: Extraia o recurso do alvo e encontre esse recurso em cada quadro. O processo de localização é o processo de correspondência de recursos.
Rastreamento de filtro bayesiano: lida com a incerteza no rastreamento de vários alvos Sob a estrutura da teoria Bayesiana, o problema de rastreamento de vários alvos é convertido em um processo de inferir a probabilidade posterior máxima do estado de destino . O princípio básico da filtragem bayesiana é inferir a distribuição de densidade de probabilidade posterior das variáveis de estado do sistema com base em todas as informações conhecidas .
Rastreamento do filtro de Kalman: Em essência, o filtro de Kalman é um algoritmo recursivo para prever o estado de um sistema dinâmico linear ruidoso e é um processo de previsão e correção contínuas. Quando é assumido que o modelo de estado do sistema e o modelo de observação são lineares e estão em conformidade com a distribuição gaussiana , e o ruído também está em conformidade com a distribuição gaussiana, o filtro de Kalman linear é o filtro ideal. O algoritmo do filtro de Kalman é a teoria de estimativa ótima recursiva, que usa o método de descrição do espaço de estados e usa o erro quadrático médio mínimo linear como critério de estimação para estimar de maneira ótima as variáveis de estado.
Mean Shift Mean Shift: Descubra funções de densidade de probabilidade ocultas em um conjunto de dados. Dado um ponto inicial x e uma função kernel g(x), execute as seguintes etapas até que a condição final seja satisfeita:
- Calcule o vetor médio de deslocamento m(x)
- atribuir m(x) a x
- Se ||m(x)-x||< então termina o loop

Mean Shift aplicado ao rastreamento de objetos:
- Inicialize a janela de pesquisa, usando o histograma de cores como uma descrição do modelo de destino.
- Calcula a distribuição de probabilidade de cores para a janela de pesquisa.
- Execute o algoritmo de deslocamento médio para obter o tamanho e a posição da nova janela de pesquisa.
- Pesquise novamente o tamanho e a posição da janela no próximo quadro da imagem de vídeo, execute a correspondência de similaridade e pule para a segunda etapa para continuar até ||m(x)-x||<.

7. Os conceitos básicos e conhecimento de detecção de objetos (tome R-CNN como exemplo), o processo básico de R-CNN, como treinar, proposta de região, IOU, NMS, classificação e região .

RCNN: detecção de objetos baseada em regiões candidatas

YOLO: detecção de objetos baseada em regressão

Processo básico R-CNN:

Proposta de região: Extraia várias caixas de candidatos de região da imagem original por pesquisa seletiva (usando segmentação de imagem e algoritmos hierárquicos)
Normalização de área: dimensionar todas as caixas candidatas para um tamanho fixo
Extração de recursos: a rede CNN gera um vetor de recursos de comprimento fixo para cada região candidata
Classificação da região: SVMs combinados com NMS (supressão de valor não máximo, selecionar a região com maior probabilidade e suprimir outras regiões com IoU maior que o limite) para obter bordas de região e, finalmente, realizar refinamento de posição por meio de regressão linear .

Procedimento de treinamento R-CNN:

Pré-treinamento (aprendizado de migração): pré-treinamento CNN no conjunto de dados ImageNet
Treinamento de ajuste: ajuste fino no conjunto de dados PASCAL
Treine o classificador SVM: se o IoU entre cada região proposta e a caixa padrão for maior que o limite, é uma amostra positiva, caso contrário, é uma amostra negativa. As amostras positivas incluem amostras marcadas e regiões propostas com IoU maior que um limite. Como as amostras positivas são muito menos do que as amostras negativas, algumas amostras negativas representativas são selecionadas das amostras negativas.

8. Aguarde o desenvolvimento da visão computacional em 2030. Dê um exemplo da aplicação da visão computacional de uma perspectiva razoável: ela será realizada em 2030, mas o nível técnico atual ainda não atingiu ou é imaturo. E tente explicar o método técnico neste exemplo.

Hoje, os computadores podem superar os humanos na resolução de tarefas específicas usando bilhões de imagens. No entanto, no mundo real, é raro construir ou encontrar conjuntos de dados contendo um número tão grande de amostras. Dados rotulados de alta qualidade são difíceis de obter na maioria dos campos, o que limita os recursos de aplicação de muitos algoritmos de visão computacional em cenários correspondentes.

Nesse contexto, a proposta de Few Shot Learning (FSL) resolverá o problema de aplicação de aprendizado de máquina sob a condição de tamanho de conjunto de dados severamente limitado. O método de aprendizado de pequena amostra pode usar apenas um número muito pequeno de amostras supervisionadas sob a premissa de usar conhecimento prévio , de modo que o modelo possa melhorar rapidamente o desempenho da generalização por meio de poucas etapas de atualização, de modo a ser aplicado a novas tarefas relacionadas. Nos últimos anos, o aprendizado de poucos tiros foi aplicado a muitas aplicações nos campos de visão computacional, processamento de linguagem natural, interação humano-computador, gráfico de conhecimento e até mesmo computação biológica.

O campo de detecção de objetos de poucos tiros está se desenvolvendo rapidamente, mas não há muitas soluções eficazes. A solução mais estável para esse problema é o algoritmo de meta-aprendizado independente de modelo YOLO+ .

E outras dificuldades: classificação muito refinada, detecção e segmentação de alvos muito pequenos e embaçados e como garantir a estabilidade dos resultados da segmentação sob mudanças complexas de iluminação . Além disso, a migração de imagem para vídeo também enfrenta um problema de suavidade, e defeitos sutis na imagem são facilmente ampliados no vídeo. O desenvolvimento da visão computacional está enfrentando um gargalo, e o aprendizado profundo desempenha um papel limitado nisso, portanto, novos avanços precisam ser encontrados. O progresso do aprendizado profundo melhorou muito a precisão do reconhecimento de CV, mas o aprendizado profundo é muito dependente de uma grande quantidade de dados rotulados, o que faz com que os pesquisadores de visão computacional gastem muito tempo em tarefas de rotulagem simples, mas complicadas, ignorando tarefas mais importantes .

9. Conceitos básicos e diferenças entre classificação e agrupamento;

Classificação: aprendizado supervisionado, para uma determinada amostra, aprenda uma função de decisão de classificação a partir dos dados, a variável de saída assume um número finito de valores discretos, representando a categoria.

Agrupamento: Aprendizagem não supervisionada, para determinadas amostras, de acordo com sua distribuição de dados, amostras semelhantes são atribuídas ao mesmo cluster e amostras diferentes são atribuídas a clusters diferentes. O objetivo do clustering é descobrir as características de distribuição dos dados, especificar o número de clusters com antecedência, mas não saber o significado dos clusters.

10. Introduza o papel e a função do classificador e do módulo de extração de recursos no sistema de classificação;

Extração de recursos: CNN, pacote de palavras visuais convertidas em representação vetorizada de palavras visuais. Um recurso é uma representação de uma imagem.

Classificadores: Naive Bayes, AdaBoost, SVM, KNN, Softmod, etc.

11. O processo de cálculo do recurso de histograma de cores.

O histograma de cores é um recurso de cores amplamente utilizado em muitos sistemas de recuperação de imagens. O que ele descreve é a proporção de cores diferentes em toda a imagem, refletindo as características estatísticas da distribuição de cores da imagem, e não se preocupa com a posição espacial de cada cor, ou seja, não pode descrever o objeto ou objeto no imagem. Os histogramas de cores são especialmente adequados para descrever imagens que são difíceis de segmentar automaticamente.

Para calcular o histograma de cores, o espaço de cores precisa ser dividido em vários pequenos intervalos de cores, e cada pequeno intervalo se torna um compartimento do histograma. Este processo é chamado de quantização de cores. Então, o histograma de cores pode ser obtido contando o número de pixels cuja cor cai dentro de cada compartimento.

12. Considere o modelo de rede neural convolucional e o histograma de cores como exemplos para explicar a diferença entre a representação de recursos do aprendizado automático e o método de representação de recursos do design manual;

Recursos projetados manualmente: SIFT e HOG são métodos de extração de recursos baseados no histograma de direções de gradiente na imagem. Em áreas com volumes de dados relativamente pequenos, a velocidade e a precisão dos algoritmos tradicionais de aprendizado de máquina são mais vantajosas porque os algoritmos tradicionais de aprendizado de máquina têm raciocínio ., O processo de cálculo é controlável .

Recursos de aprendizado automático: CNN, em termos de processamento de big data, rede neural profunda tem maior precisão e campos de aplicação mais amplos.

13. Dadas duas imagens, forneça um método de cálculo para similaridade de imagens e discuta sua racionalidade e deficiências.

Histogramas podem descrever a distribuição global de cores em uma imagem, construir histogramas, vetorizar representações e similaridade de cosseno. O histograma é muito simples e pode capturar apenas a similaridade das informações de cores, mas não pode capturar mais informações. Desde que a distribuição de cores seja semelhante, será julgado que a semelhança entre os dois é alta, o que obviamente não é razoável.
Extraia recursos, represente a imagem como um vetor e caracterize a semelhança de duas imagens calculando a distância do cosseno entre os vetores. Quanto mais próximo o valor do cosseno estiver de 1, mais próximo o ângulo incluído estará de 0 graus, ou seja, mais semelhantes serão os dois vetores. A similaridade de cosseno não é sensível ao valor absoluto do valor específico, portanto não pode medir a diferença de valor.
Rede gêmea: duas redes aceitam entrada separadamente, compartilham pesos e calculam a distância ou semelhança entre os dois vetores de saída para determinar a semelhança da entrada original.

14. Apresente a uma imagem (como a figura abaixo), os vários tipos de informações conceituais que ela pode conter. Até onde a tecnologia de compreensão de imagem pode ir agora?

Detecção de veículos, estimativa de densidade de multidão, estimativa de densidade de veículos, classificação de cena, segmentação semântica, aprimoramento de pouca luz, segmentação semântica, detecção de alvo, rastreamento de alvo...

Universidade Nacional de Ciência e Tecnologia. Processamento de Imagens e Visão Computacional: Questões de Revisão Final e Resumo dos Pontos de Conhecimento (2)

Acho que você gosta