Três tecnologias de câmera profundidade: Segredo de princípio - visão estéreo binocular

Por que temos de obter profundidade com câmera binocular?

fluxo de trabalho binocular câmera profundidade visual

A visão da câmera estéreo profundidade binocular funciona em detalhes

    modelo de imagem da câmera binocular Ideal

    restrição epipolar

    tecnologia de correção de imagem

    correspondência de imagem com base na janela deslizante

    A correspondência de imagem com base na otimização de energia

profundidade câmera de visão estéreo binocular das vantagens e desvantagens

-------------------------------------------------- -

Com base na visão da câmera profundidade binocular semelhante ao olho humano, e com base na TOF, os princípios da câmera luz profundidade estruturado, não projetar fora da fonte ativa, inteiramente em duas imagens capturadas (cor RGB ou tons de cinza) calcula a profundidade portanto, por vezes referido como câmera de profundidade binocular passiva. produtos mais conhecidos são STEROLABS lançado ZED 2K câmera estéreo e companhia Point Grey lançou BumbleBee.

ZED 2K Stereo Camera

Por que temos de obter profundidade com câmera binocular?

Aqui, alguns leitores vão pedir-lo: Por que nós temos que ter uma câmera com uma profundidade binocular? Fechei um olho só para observar com um olho, mas também para saber qual objeto mais perto de mim que é longe de mim ah! Não é que uma câmera monocular também pode obter profundidade?

 

A resposta: Primeiro de tudo, olho verdadeiramente humano também pode ser obtido por uma determinada informação de profundidade, mas na verdade há uma série de factores subjacentes a esta fácil esquecer no trabalho: primeiro, porque o mundo em que o próprio povo está bem ciente de ( conhecimento a priori), e, portanto, o tamanho do cotidiano objetos é um pré-julgamento básico (de pequeno a formação visão grande multi-ano), de acordo com perto sentido muito comum muito menor pode ser inferida a partir do que imagem estamos longe do que estamos perto; em segundo lugar, as pessoas em objeto de observação monocular quando na verdade o olho humano é tremendo, o equivalente a uma câmera monocular em movimento, que é semelhante ao movimento para restaurar os princípios da estrutura (estrutura do movimento, SFM), câmera monocular móvel comparando vários quadros diferenças podem realmente obter informações detalhadas.

 

Mas, na verdade, afinal, não a câmera olho humano, ele só irá operar de acordo com as imagens tolas de pessoas, não aprender e pensar. A figura a seguir mostra o motivo por que a câmera não pode medir o valor profundidade monocular e binocular pode ser de princípios físicos. Vemos pontos pretos em três diferentes perto e de longe abaixo da linha vermelha projetada na câmera na mesma posição, e, portanto, não pode ser resolvido em uma câmera monocular, como no final ainda está longe de ser aquele ponto perto daquele ponto, mas eles estão no topo da câmera a projecção foi localizado em três posições diferentes, de modo que através da observação das duas câmaras pode ser determinada no final é um ponto.

 

câmera binocular para determinar o mapa de profundidade

Binocular câmara estereoscópica profundidade para simplificar o processo de

Segue um resumo breve sobre o processo de medição de profundidade binocular câmera profundidade visual, como segue:

 

1, primeiro necessidade de calibração da câmara binocular, obter dentro e fora dos parâmetros das duas câmeras, homografia.

2, de acordo com a correcção de resultados de calibração na imagem original, as duas imagens corrigido no mesmo plano e paralelas umas às outras.

3, dois do correspondente pixel da imagem corrigida.

4, a profundidade de cada pixel é calculado de acordo com o resultado correspondente, obtendo-se assim o mapa de profundidade.

 

Para mais informações, deixe-me ver detalhes abaixo.

 

visão estéreo detalhes binocular de profundidade câmera sobre

1

modelo de imagem da câmera binocular Ideal

Em primeiro lugar, partimos da análise da situação ideal: Suponha duas câmaras esquerdo e direito no mesmo plano (paralelo ao eixo óptico), e os parâmetros da câmara (por exemplo, comprimento focal f) é consistente. Assim, os princípios e fórmulas derivada valor da profundidade da seguinte forma. fórmula triângulo está apenas relacionada com a escola secundária é o conhecimento semelhante, não é difícil de entender.

 

princípio cálculo da visão estéreo valor de profundidade câmera binocular Idealmente

 

De acordo com a derivação acima, a distância espacial de ponto P a partir da câmara (profundidade) z = f * b / d, pode ser calculado, se a profundidade z encontrada, necessidade de saber:

 

1, a câmara de distância focal f, em torno da câmara de linha de base b. Estes parâmetros podem ser obtidos por uma informação ou uma câmara de calibração priori.

 

2, a paralaxe d. Você precisa saber o ponto (xr, yr) de correspondência entre cada pixel câmera esquerda (xl, il) e a câmera certa correspondente. Esta é a questão central da visão binocular.

 

2

restrição epipolar

Então a questão é, por um pixel na imagem à esquerda, como determinar a localização do ponto na direita? Nós não somos obrigados a procurar um tapete de correspondência em toda a imagem?

 

A resposta é: não. Porque há muito constrangidos line (ouvir o nome assustador). linha epipolar é muito importante para resolver a correspondência entre pixels na imagem ponto.

 

Então, o que é uma linha muito na estrada? Como mostrado na FIG. C1, C2 são duas câmaras, P é um ponto no espaço, P e o ponto de centro das duas câmaras C1, C2 que formam um PC1C2 planar espaço tridimensional, chamados planos polares (plano epipolar). eléctrodo planar e duas linhas rectas que intersectam-se as duas imagens, as duas linhas rectas que é chamado de linha de origem (linha epipolar). Imagiologia de ponto P na câmara é C1 P1, o ponto na imagem da câmara é C2-P2, mas a posição P não é conhecida de antemão.

 

Nosso objetivo é: para a esquerda do ponto P1, o ponto correspondente no direito de olhar para ele em P2, para que possamos determinar a posição espacial do ponto P, que é o que nós queremos de um objeto espacial ea câmera (profundidade).

 

A chamada linha epipolar (epipolar restrição) refere-se a quando o mesmo ponto espacial nas duas imagens são gravadas, os pontos de projecção esquerda P1 é conhecida, então a projeco direita correspondente em relação a um determinado p1 p2 linha polar ponto, assim ele pode extremamente diminuir as partidas.

 

A restrição epipolar é definida, podemos ver visualmente a figura a seguir P2 em uma determinada linha do pólo, por isso só precisa ser capaz de encontrar a busca ao longo da linha epipolar correspondente pontos P1 e P2.

 

esquemático restrição epipolar

 

amigos atenciosos vai encontrar as considerações acima processo (dois coplanar câmara e paralelo ao eixo óptico, os mesmos parâmetros) é câmera C1 ideal, C2, se não na mesma linha como fazer?

 

Com efeito, esta situação é muito comum, porque alguns cenários requerem duas câmaras fixas separadas, é difícil garantir o centro óptico C1, C2 perfeitamente horizontal, mesmo devido à montagem vai ser fixado nos mesmos resultados de substrato no centro óptico incompleta nível. Como mostrado na FIG. Vemos duas câmeras polares não só paralelas, não coplanar, o modelo ideal antes de o conjunto é derivado não ter os resultados, pode-se supor que fazer?

 

No Idealmente não polar

 

Não se preocupe, existem maneiras. Vamos dar uma olhada no tiro, neste caso, cerca de duas fotos dele, como mostrado abaixo. Deixou três pontos símbolo da cruz na direita é as linhas de origem correspondentes das três linhas brancas à direita, ou seja, área de pesquisa correspondentes. Vemos este não é o nível de três linhas retas, ponto por ponto, se a eficiência de busca é muito baixo.

 

Na esquerda três pontos (marca) transversal à direita linha da fonte correspondente é uma linha direita em frente em três branco

 

3

tecnologia de correção de imagem

Como fazê-lo? A situação ideal não é o ideal sem converter para OK! Esta é a imagem corrigida (retificação de imagem) tecnologia.

 

A imagem é corrigida usando duas imagens, respectivamente homografia (homografia) matriz de transformação (disponível por calibração) obtidas, as duas imagens do plano do objecto é (cinzento no plano figura) projectada em direcções diferentes para o mesmo plano de volta e os eixos ópticos são paralelos um ao outro (o plano da Fig amarelo), de modo que o modelo pode ser usado em frente do caso ideal, as duas câmaras tornou-se a linha da fonte de um nível.

 

esquemática correção de imagem

 

Depois de uma correção de imagem do pixel esquerdo só precisa procurar os pontos correspondentes ao longo da linha de origem pode ser uma direção horizontal (feliz). A partir da figura podemos ver que três pontos correspondentes à disparidade (linha vermelha seta dupla) são diferentes, os menores objetos distantes de paralaxe, maior a paralaxe quanto mais próximo o objeto, e isso é consistente com o nosso conhecimento.

 

Resultados após correção de imagem. A seta dupla está ponto vermelho correspondente a paralaxe

 

O acima mencionado partiu para um ponto ao longo dela e encontrar o seu melhor de pixel jogo na direção certa na linha fonte horizontal, parece simples, a operação real não é fácil. Isso ocorre porque a suposição é a situação ideal. Quando os pixels irá coincidir com a conduta real encontrado vários problemas:

 

1, de fato, para garantir que a câmera é de dois coplanar e da coerência dos parâmetros é muito difícil, e o processo de cálculo irá produzir erros se acumulam, de modo que o deixou por um momento, que corresponde ao ponto não é necessariamente apenas o poste direito line. Mas deve ser muito perto da linha, de modo que o intervalo de pesquisa precisa de ser relaxado.

 

robustez 2, um único pixel é comparado é pobre, é susceptível a mudança iluminação diferentes e o ângulo de impacto de vista.

 

4

correspondência de imagem com base na janela deslizante

Solução para os problemas acima referidos: a correspondência é realizada utilizando uma janela deslizante. Como mostrado na FIG. Para um pixel (esquerda centro bloco vermelho) na esquerda, esquerda para a direita na direita dentro do mesmo tamanho do pixel com uma janela deslizante e avalia a semelhança, a medida de similaridade, existem muitos métodos, como método de erro quadrado (soma das diferenças ao quadrado, referido como o SSD), mais semelhantes as duas janelas de esquerda e direita em Fig menor SSD. SSD curva inferior da figura mostra os resultados dos cálculos, os valores de pixel mínimo SSD correspondente à posição da melhor correspondência é encontrada.

 

Uma vista esquemática do princípio de deslizamento correspondente janela

 

operações específicas, há muitos problemas práticos, como um tamanho janela deslizante. Selecione o tamanho da janela deslizante ainda é muito luxuoso. Os seguintes figura mostra o efeito de diferentes deslizante tamanho da janela de resultados de cálculo profundidade da FIG. Encontramos também a partir da figura:

 

O pequeno tamanho da janela: maior precisão e riqueza de detalhes, é particularmente sensíveis ao ruído

Grandes janelas: a precisão não é alta, não é suficiente detalhe, mas mais robusto ao ruído

 

Efeito de diferente tamanho deslizante profundidade janela resultados do cálculo da FIG.

 

Embora calculado profundidade método mapa correspondente baseado em janela de correr, mas este efeito não é bom método de correlação, mas também devido à correspondência pontual janela deslizante, a eficiência de cálculo é muito baixo.

 

5

A correspondência de imagem com base na otimização de energia

Mais métodos convencionais são baseados em otimização de energia para alcançar correspondente. otimização de energia normalmente irá definir uma função de energia. Por exemplo, para pixels nas duas figuras correspondentes, a função de energia que definem a seguinte Equação 1 na FIG. O nosso objectivo é:

 

1, em que o pixel esquerdo e o direito de todos os pixels correspondentes a aproximar o melhor, reflecte-se na imagem onde os mais próximos os melhores valores de gradação, isto é, a fórmula descrita na Fig. 2.

 

2, na mesma imagem, a disparidade dois pixels adjacentes (valor de profundidade) também deve ser semelhante. Que é a descrição da Fig. 3 equação.

 

função de energia

 

função de energia representada pela fórmula 1 anterior, é a famosa modelo MRF (Markov aleatória Field). Ao minimizar a função de energia, finalmente chegamos uma das melhores partidas. Com o resultado correspondente de cada pixel da esquerda e para a direita na FIG., A fórmula precedente pode ser obtido o valor de profundidade profundidade para cada pixel, para se obter um mapa final profundidade.

 

Vantagens e desvantagens do método estéreo binocular

De acordo com os princípios da introdução anterior, resumimos as vantagens e desvantagens baseadas na visão estéreo câmera profundidade método binocular.

 

1

vantagem

1, os requisitos da câmara de hardware de baixo, de baixo custo. Como não há necessidade de usar um transmissor especial e receptor eo TOF imagem luz estruturada, utilizando consumidor comum pode RGB câmera.

 

2, interior e exterior são aplicáveis. Desde que as imagens de captura de luz diretamente do ambiente, ele pode ser usado em ambientes fechados e ao ar livre. Em contraste, TOF e a estrutura básica da luz para utilização no interior.

 

2

deficiência

1, que é muito sensível à luz ambiente. estereoscópica captura de imagem luz natural Binocular no método dependente do meio ambiente, e a influência de fatores ambientais iluminação ângulo muda, como mudanças na intensidade da luz, diferença de brilho entre duas fotos tiradas será relativamente grande, isso terá um grande desafio proposto algoritmo de correspondência . Abaixo é tomado sob diferentes condições de iluminação Image:

 

contraste da imagem sob luz diferente

 

Além disso, a luz forte (não será superexposta) e sob mais escura circunstâncias pode levar a uma afiados resultados algoritmo declínio.

 

2, não se aplica à falta de textura cena monótona. Devido a visão estéreo método de imagem correspondente binocular de acordo com características visuais, características tão visuais para a falta de uma cena (como o céu, uma parede branca, deserto, etc.) será difícil de igualar, resultando em uma maior correspondência erro de correspondência falhar.

Ricamente texturizados (esquerda) e a falta de cena textura (à direita)

 

3, de alta complexidade computacional. Este método é método puramente visual, você precisa calcular pixel por jogo, e porque o impacto destes vários factores, a necessidade de garantir um robusto resultados correspondentes da comparação, de modo que o algoritmo irá aumentar o número de estratégia de rejeitos falsa, então o algoritmo são mais elevados, pense para alcançar difíceis grande quantidade de confiança comercial, de cálculo.

 

4, a câmara limita o intervalo de medição de linha de base. E intervalo de medição de linha de base (duas câmaras passo) relação significativa: maior da linha de base, mais longe do intervalo de medição; linha de base mais pequena, quanto mais próximo do intervalo de medição. Assim, a linha de base até certo ponto limitar a profundidade do alcance da câmera.

 

Publicado 377 artigos originais · Louvor obteve 145 · vista 210 000 +

Acho que você gosta

Origin blog.csdn.net/Windgs_YF/article/details/104617755
Recomendado
Clasificación