Série de condução automática (inteligente) | (1) Introdução e sensores

Descrição: Esta série é a pilha de tecnologia e ideias de fusão de percepção automática (condução inteligente) (algumas fotos e informações vêm da Internet)

Este tópico é para organizar e revisar o que aprendi e compartilhar com aqueles que desejam aprender esse aspecto. Este é o primeiro artigo desta série. É principalmente uma introdução, e será mais compreensão e implementação algorítmica mais tarde.

Este artigo está dividido em 2 partes: introdução à condução automática e sensores, calibração do sensor

Índice

1. Introdução à direção autônoma e sensores

1..1 Classificação da Condução Autônoma e Cadeia Industrial

1.2 Sensores comuns do módulo de percepção

2. Calibração do sensor

câmera 2.1

2.2 Calibração Lidar (camera2Lidar)

 2.3 Calibração do Radar

1. Introdução à direção autônoma e sensores

1..1 Classificação da Condução Autônoma e Cadeia Industrial

A condução autônoma é classificada em 5 níveis de acordo com a SAE:

SAE ( Sociedade de Engenheiros Automotivos )

Atualmente, a maioria das empresas concluiu a direção assistida de nível L2. Quando a função é ativada, o motorista está no estado de direção. Atualmente, o nível mais alto é a direção automática de nível L4.

A cadeia industrial atual é apresentada na figura acima: Em linhas gerais, o módulo de direção autônoma é dividido em módulos de percepção, tomada de decisão e execução.

Aqui expandimos principalmente o módulo de percepção.

1.2 Sensores comuns do módulo de percepção

O módulo de percepção pode ser visto como a base para a tomada de decisões e execução subsequentes e inclui sensores como câmeras, lidar, radar de ondas milimétricas, GPS, IMU e assim por diante.

A principal tarefa de percepção é através de sensores de hardware. Os objetos incluem: superfícies de estradas, objetos estáticos e objetos dinâmicos, envolvendo detecção de limites de estradas , detecção de obstáculos, detecção de veículos, detecção de pedestres, detecção de sinais de trânsito , etc. De fato, não basta completar a tarefa de detecção, também é necessário rastrear e prever a estimativa do objeto em movimento e prever sua próxima posição . A tecnologia de fusão multissensor é necessária. Os dados podem ser obtidos na forma de imagens, vídeos, nuvens de pontos, etc.

Na verdade, a fusão de sensores não é uma coisa nova. Ela apareceu no início do século passado. Tradicionalmente, é baseada em métodos estatísticos como a filtragem de Kalman. Agora, com o desenvolvimento de redes neurais, o desenvolvimento da direção autônoma foi Com dados maciços e inovação de estrutura de rede rica, o modelo end2end orientado a dados está se desenvolvendo rapidamente.

Em comparação com a tecnologia de visão tradicional, a rede neural: 1. É mais fácil migrar para novos alvos, desde que seja obtido um número suficiente de amostras, a rede correspondente pode ser treinada (transferência); 2. A robustez para objetos ocluídos é excelente .Capacidade de extração de características 3. Robustez à iluminação e outras condições ;

Com o desenvolvimento do deep learning, além do NLP e da visão, surgiram modelos de rede para dados irregulares e não europeus, como o Pointcloud. Essas novas tecnologias permitem substituir o radar lidar e de ondas milimétricas no campo de percepção para melhorar o desempenho.

Mas, atualmente, o campo da percepção da direção autônoma ainda enfrenta grandes desafios. Nesta fase, muitos modelos de grande escala podem alcançar bons resultados, mas não podem processar dados em tempo real, e as condições das estradas em diferentes países e regiões são diferentes, mesmo em diferentes regiões do país. As condições da estrada são complexas e a capacidade de processar tarefas de vídeo geralmente não é comparável à de uma imagem de quadro único.

A aquisição inteligente de informações do carro de condução geralmente é a fusão de informações de sensores no carro e coordenação veículo-estrada V2X por meio de 5G

e outros métodos de comunicação para realizar a interação e compartilhamento de informações e, com base nessas informações, concluir o controle geral do veículo. Aqui discutimos apenas a percepção da fusão do sensor.

Em primeiro lugar, precisamos deixar claro que a percepção do sensor é um produto de uma combinação de software e hardware, incluindo não apenas a seleção de hardware, mas também a bênção de algoritmos de software. Como mencionado anteriormente, o hardware inclui câmeras, radares de ondas milimétricas, radares ultrassônicos, detectores infravermelhos, IMUs, GPS, lidar e muito mais. A fusão multissensor é integrar informações de diferentes escalas, complementar umas às outras, aprender umas com as outras e melhorar a estabilidade e a tolerância a falhas do sistema.

Vamos começar com a visão. A visão computacional alcançou um desenvolvimento incrível. Assim como nós, a visão também é a principal forma de percepção para veículos não tripulados. Desempenha um papel importante nos semáforos e no reconhecimento de sinais de trânsito. Musk disse uma vez na conferência de desenvolvimento: Sua solução puramente visual pode ver o símbolo "pare" na camiseta e responder. Talvez seja por isso que a Tesla, com seu programa de "visão pura", também começou a entrar no mundo dos radares. Ao processar as imagens coletadas, tarefas como classificação, segmentação, rastreamento e classificação dos participantes do tráfego são realizadas. Ele tem uma forte capacidade de extrair informações semânticas, mas seu desempenho diminui em alguns casos em que a luz é muito fraca ou muito forte ou a linha de visão está bloqueada. É mais grave, e a câmera de luz visível mais importante não pode funcionar o tempo todo, então alguns veículos agora estão equipados com sensores infravermelhos passivos para classificar os participantes do tráfego, o que também alcançou certos resultados. O mais famoso é o conhecido fabricante de infravermelho FLIR, cujo BOSON pode atingir até 60 Hz, e eles também lançaram o conjunto de dados de infravermelho (mas agora foi removido das prateleiras). Para câmeras, câmeras olho de peixe e câmeras pinhole são comumente usadas. Claro, para visão estéreo, como o Kinect da Microsoft entra nas casas das pessoas comuns, binoculares e até trinoculares também estão aparecendo nos produtos de hoje.

A seguir, vamos falar do lidar, existem várias classificações de lidar, conforme a banda, conforme a estrutura e método de trabalho, e assim por diante. ToF é o princípio do lidar convencional. 905nm é a banda de radar a laser mais comum e o preço é muito mais barato que 1550nm, todos pertencentes à banda de infravermelho. Em termos de estrutura, o mais comum é o tipo mecânico rotativo. Sua característica mais notável é o FOV de 360 ​​graus. É o tipo de lidar mais maduro com alta precisão. A desvantagem é que a estrutura rotativa mecânica pode precisar ser considerado para uso a longo prazo. O problema mais importante é o preço, mas com a adição de fabricantes nacionais e o desenvolvimento tecnológico, o preço caiu muito. Segundo especialistas do setor, "o desenvolvimento do LiDAR também é agravado pela Lei de Moore" . O outro é semelhante ao M1 LiDAR (semi-sólido) da Sagitar, cujo princípio é o MEMS Mirror, que faz a varredura pela ressonância do galvanômetro do micromotor. O campo de visão horizontal é de 120 graus, diagrama esquemático do MEMS lidar:

LiDAR atualmente equipado com veículos de condução inteligente:

A maior vantagem do lidar é sua alta resolução, que se manifesta em distância, velocidade e resolução angular. Nuvens de pontos densas podem realizar o reconhecimento de pessoas, veículos, árvores, edifícios, etc. No entanto, a distância de visualização será muito afetada em tempo chuvoso e com neve.

O radar de ondas milimétricas é um radar muito comum e sua boa resolução de velocidade pode medir a velocidade e o ângulo do alvo para completar o aviso de segurança. Os radares montados em veículos usados ​​no campo são todos FMCW, e a medição da distância e do ângulo é concluída de acordo com a diferença do sinal de frequência enviado e recebido. Ao mesmo tempo, a velocidade Doppler é medida de acordo com a relação entre diferentes chirps. Comparado com o LiDAR, tem forte penetração e tem uma resposta óbvia a materiais metálicos. A ampla banda de frequência traz uma faixa de alcance mais longa, mas geralmente é necessário processar mais interferência. O radar tradicional possui apenas informações de avião e informações de velocidade. No ausência de informações de altura, o surgimento do radar 4D compensa esse problema e pode gerar nuvens de pontos mais densas, o que é uma direção de desenvolvimento não produtiva e promissora hoje.

O radar ultrassônico é frequentemente usado para evitar obstáculos, com alcance de detecção de 1 a 5 m, precisão de 1 a 3 cm, forte penetração, estrutura simples e preço baixo. Muitas vezes, é instalado nos pára-choques dianteiro e traseiro e nas laterais do carro. Suas desvantagens são a sensibilidade à temperatura e a má direcionalidade. Desempenha um papel no estacionamento automático e na assistência à marcha-atrás da condução automática.

IMU, navegação inercial integrada, os principais componentes são giroscópio e acelerômetro, estabelecem coordenadas de acordo com a posição do giroscópio e exibem a posição de acordo com o acelerômetro. A combinação de GPS e IMU pode revisar continuamente o desvio de deslocamento de longo prazo da IMU e converter o sistema de coordenadas IMU no atual sistema de coordenadas precisas no GPS. Posição e velocidade atuais constantemente atualizadas. O serviço RTK torna o GNSS mais preciso, mas um conjunto de serviços IMU+GPS mais RTK é muito caro. O sistema de navegação inercial é o núcleo da fusão de todo o módulo de posicionamento.

Aqui está o resumo:

2. Calibração do sensor

O exposto acima apresenta os principais sensores da direção autônoma, e cada sensor possui seu próprio sistema de coordenadas; sistema. Isso é particularmente importante e afeta seriamente a precisão. Devido à vibração do carro e outros motivos, precisamos recalibrar a estrutura em intervalos. Para estruturas fixas, tratamos como uma transformação de corpo rígido 3D.

câmera 2.1

A imagem da câmera pode ser simplificada como um modelo de "imagem de pequeno orifício", para o qual existem quatro conjuntos de relações de coordenadas: o sistema de coordenadas mundiais (em m), o sistema de coordenadas da câmera (em mm ou m), o sistema de coordenadas físicas da imagem ( Ou seja, o plano de imagem física, o centro do filme na figura, a unidade é geralmente cm) sistema de coordenadas de pixel (em pixel)

Para derivação específica, consulte: https://zhuanlan.zhihu.com/p/476032066

Ao calcular os parâmetros internos, a relação entre o plano de pixel e o ponto de coordenada da câmera é fornecida e escrita como uma fórmula homogênea 

fx, fy são distâncias focais equivalentes em escala. cx e cy são a quantidade de translação do plano do objeto, e a unidade é pixel, formando uma matriz de referência interna.

As informações de referência interna geralmente são armazenadas em .ini ou .yaml. O método de calibração mais famoso é o método de calibração de Zhang Zhengyou. O princípio é pnp. A caixa de ferramentas de calibração inclui a caixa de ferramentas autoware em ROS e MATLAB, etc.

Podemos obter os parâmetros extrínsecos transformando o corpo de aço no ponto P, ou seja, os parâmetros extrínsecos são a transformação Rt entre o sistema de coordenadas da câmera e o sistema de coordenadas do mundo.

As câmeras geralmente têm mais ou menos distorção, que pode ser dividida em distorção de almofada e distorção de barril. Geralmente é causado pela lente ou pela instalação, então precisamos remover a distorção. A distorção é dividida em radial e tangencial. O chamado radial é causado pela lente, o formato de barril significa que a ampliação diminui com o aumento da distância do centro óptico e a almofada de alfinetes é o oposto; a distorção tangencial é causada pelo erro de instalação e a lente e o plano de imagem não são paralelos.

 Para radiais:

Para tangencial:

 Às vezes, apenas dois parâmetros k1 e k2 são tomados na direção radial, e p1 e p2 são tomados na direção tangencial para formar parâmetros de correção de distorção de livros de cinco ou quatro parâmetros.

Portanto, se devemos considerar a relação espacial primeiro ou corrigi-la primeiro, não importa, mas para a conveniência do processamento, geralmente corrigimos a distorção primeiro e depois seguimos diretamente a relação correspondente sem considerar a distorção.

Entre eles: r é o diâmetro polar representado pelas coordenadas polares planas normalizadas iguais a x ao quadrado = y ao quadrado sob o sinal da raiz

 O plano de pixel corresponde a:

 Nota: Quando há seis parâmetros, os coeficientes nas direções x e y não são os mesmos, apenas o termo quadrático é considerado, há k1~k4 mais p1 e p2, um total de seis parâmetros.

2.2 Calibração Lidar (camera2Lidar)

Geralmente, a referência interna do radar laser é preenchida pelo fabricante quando ele sai da fábrica, o que representa a relação entre as coordenadas do transmissor laser e o próprio sistema de coordenadas definido pelo sensor.

Portanto, precisamos calibrar os parâmetros externos do lidar para a câmera. Geralmente, existem dois métodos: baseado em alvo e sem alvo, ou seja, para calibrar com objetos físicos, como tabuleiros de damas, ou coincidir com a cena de destino (como determinar uma árvore, etc.) para calibrar. Esse método geralmente é usado em conjunto com a IMU.

Através da placa de calibração, extraia os pontos-chave e faça mais de 4 correspondências para levá-lo a usar a solução de mínimos quadrados.

Atualmente, ainda existem calibrações através do método RANSAC, que são todos métodos off-line, e ainda existem muitas calibrações on-line baseadas na expressão de recursos.

A ferramenta ainda pode usar MATLAB e Autoware e, claro, pode reproduzir o método no papel.

 2.3 Calibração do Radar

A calibração do radar é uma parte mais difícil, porque a qualidade da nuvem de pontos do radar é geralmente pior do que a do lidar, e a densidade é pequena, mas o núcleo ainda precisa resolver a relação correspondente do espaço. O projeto estrutural é a chave. Geralmente, usar lidar e radar como benchmarks é melhor do que câmera e radar para calibração.

 Além disso, existem métodos emergentes de calibração conjunta de aprendizado profundo, como o CalibNet.

Este conhecimento envolve principalmente pnp, pontos de recurso, nuvem de pontos RANSAC, etc.

Acho que você gosta

Origin blog.csdn.net/m0_46611008/article/details/125683925
Recomendado
Clasificación