"Inesperado" vol 27. Revisão | Renomado especialista em SLAM visual Gao Xiang: Vamos falar sobre a aplicação prática do SLAM visual nas áreas de direção autônoma e robótica

Seguindo o livro best-seller "Quatorze Palestras sobre Visual SLAM", o Sr. Gao Xiang lançou um novo livro "Tecnologia SLAM em direção autônoma e robôs". O livro atraiu muita atenção desde a sua publicação, proporcionando aos leitores uma compreensão abrangente e profunda da tecnologia SLAM.

Na 27ª sessão de compartilhamento a portas fechadas "Yu Jian", estou muito feliz em convidar o conhecido especialista em SLAM visual Gao Xianglai para compartilhar com vocês a aplicação de laser e SLAM visual em direção autônoma e robôs, bem como seus pensamentos sobre empreendedorismo SLAM, opiniões e realizar trocas e interações de controle de qualidade com colegas de classe on-line.

Durante a sessão de discussão com microfone aberto do evento, todos fizeram perguntas sobre SLAM, uma após a outra. Também gravei a essência do texto de perguntas e respostas do professor Gao Xiang, editei um pouco e apresentei a todos ~

Se você quiser saber mais sobre o trabalho visual relacionado ao SLAM, também pode adicionar thexiaojiang no WeChat, ingressar na comunidade de comunicação SLAM e interagir com mais parceiros em áreas relacionadas!

Apresentação do convidado

foto

Gao Xiang

Renomado especialista em SLAM visual

Natural de Huzhou, Zhejiang, possui doutorado no Departamento de Automação da Universidade de Tsinghua e pós-doutorado na Universidade Técnica de Munique. Ele está envolvido na pesquisa de algoritmos de visão computacional, posicionamento e construção de mapas há muito tempo e atuou sucessivamente como engenheiro de algoritmos sênior e diretor de algoritmos em direção autônoma em empresas como Baidu, Zhixingzhe e Mainline Technology. Seus principais trabalhos de autor e tradução incluem "Fourteen Lectures on Visual SLAM: From Theory to Practice", "State Estimation in Robotics", "SLAM Technology in Autonomous Driving and Robotics", e publicou em publicações internacionais como ICRA, IROS e RA -Cartas.Ele publicou muitos artigos em revistas e conferências renomadas.

Pagina inicial:

https://www.techbeat.net/grzytrkj?id=183

1. Quais são as barreiras técnicas ao SLAM nos domínios da condução autónoma e da robótica? Qual é a situação de desenvolvimento e aplicação no país e no exterior?

Gao Xiang: A principal barreira à tecnologia SLAM (localização em tempo real e construção de mapas) no campo da condução autónoma e da robótica é que a realização de um algoritmo estável requer um grande número de casos de aplicação práticos e acumulação de experiência. Na academia, os conjuntos de dados são relativamente pequenos, enquanto a indústria enfrenta cenários de aplicação mais complexos e em maior escala. Não há muita lacuna tecnológica entre o laboratório e a indústria porque a estabilidade do algoritmo está intimamente relacionada ao efeito real do produto. No mundo industrial, o tempo de iteração de um produto e o número de casos práticos de aplicação desempenham um papel fundamental na estabilidade e no desempenho do algoritmo.

Em termos de desenvolvimento no país e no exterior, a tecnologia SLAM difere nas direções e métodos de pesquisa de vários laboratórios, mas todos eles se concentram na resolução de problemas práticos e na melhoria da qualidade do produto. Em termos de aplicação, a tecnologia SLAM tem sido praticamente utilizada em produtos como varredoras e varredoras. Empresas que vendem mais produtos tendem a ter desempenho mais estável.

2. Como implementar SLAM eficientes e algoritmos de condução autônoma em aplicações em tempo real para atender aos requisitos em tempo real e rodar em sistemas embarcados com recursos computacionais limitados?

Gao Xiang: O principal problema na implementação de algoritmos SLAM eficientes e de condução autônoma em aplicações em tempo real é a limitação dos recursos computacionais. Atualmente, a maioria dos algoritmos de posicionamento rodam sem problemas em sistemas embarcados, como hardware fornecido por empresas nacionais como Horizon e Black Sesame, bem como empresas estrangeiras como Nvidia. A maioria das empresas nacionais fará uma camada de embalagem no hardware da Nvidia e adicionará seus próprios produtos. Do ponto de vista do posicionamento, isso não é um grande problema. Para mapeamento, a abordagem principal ainda é rodar no PC ou servidor. Se você deseja implementar recursos mais complexos, como semântica, BEV ou geração de mapas em tempo real, o fluxo geral do projeto será diferente dependendo da complexidade do recurso que você deseja implementar.

3. Como fundir efetivamente dados de vários sensores, como lidar, câmeras, unidades de medição inercial (IMU), etc., para melhorar a precisão e robustez do posicionamento e da percepção ambiental?

Gao Xiang: Para alcançar a fusão de sensores e melhorar a precisão e robustez do posicionamento e da percepção ambiental, primeiro precisamos nos concentrar na robustez para lidar com diversas situações anormais. Ao projetar a estrutura do sistema, considere a ocorrência de situações anormais, como a configuração de vários sensores no carro como backup redundante. Para diferentes cenários, é necessário esclarecer requisitos específicos, como espaçamento e largura das colunas do estacionamento, etc. Na fase de laboratório, é difícil prever a complexidade e riqueza do campo, por isso é necessário testar totalmente em cenários reais, resolver vários problemas de canto e otimizar continuamente o algoritmo para se adaptar a diferentes situações.

Em aplicações práticas, isso é normal na maioria das vezes, portanto, filtros, gráficos de fatores e outros métodos podem ser usados ​​para processamento de dados. Quando ocorrem situações anormais, são necessários mecanismos redundantes para compensar. Por exemplo, além de seu próprio DR, um carro também será equipado com um vídeo VO automático ou um hodômetro de radar como backup redundante.

4. Em comparação com as tradicionais nuvens de pontos esparsos e mapas de profundidade, a atual representação implícita da cena representada por campos de radiação tem as vantagens da alta resolução e da modelagem direta de 360 ​​​​graus.Quais são os desafios ao combinar essas representações implícitas com a estrutura SLAM?

Gao Xiang: Em comparação com as tradicionais nuvens de pontos esparsos e mapas de profundidade, a representação implícita da cena representada por campos de radiação tem as vantagens da alta resolução e da modelagem direta de 360 ​​graus. No entanto, combiná-lo com o quadro SLAM enfrenta alguns desafios: esta direção é relativamente nova, ainda está a ser discutida acaloradamente na comunidade académica e há muitas incertezas. A indústria é geralmente mais conservadora e só considera as aplicações depois que a academia chega a um consenso sobre um problema.

A maioria dos algoritmos atualmente utilizados na indústria são algoritmos que foram estabilizados pela comunidade acadêmica há alguns anos, e a pesquisa sobre a combinação de representação implícita e estrutura SLAM ainda está em seus estágios iniciais. Portanto, a inovação no nível do método ainda precisa ser melhorada. Além disso, a representação implícita da cena ainda apresenta muitas incertezas em termos de estrutura de rede. Agora todos estão fazendo sua própria pesquisa e desenvolvimento e, no geral, isso está em um estágio relativamente inicial. Muitos estudos combinam métodos existentes em vez de propor métodos completamente novos. Ao nível de cada módulo, a abordagem pode ser menos inovadora. Claro, isso também significa que ainda há muitas direções para tentar explorar.

5. Como construir conjuntos de dados em larga escala adequados para SLAM e condução autónoma, e definir critérios de avaliação e indicadores para comparar e avaliar o desempenho de diferentes algoritmos?

Gao Xiang: Construir conjuntos de dados em grande escala adequados para SLAM e direção autônoma requer muitas considerações. Primeiro, as grandes empresas podem ter os seus próprios conjuntos de dados em grande escala, mas não podem torná-los públicos. As práticas nas escolas podem diferir, uma vez que o número de veículos é limitado e os dados recolhidos durante um longo período de tempo são relativamente limitados. Se for realizado em uma empresa, pode-se utilizar um método de aprendizagem semelhante, utilizando um grande número de veículos e bancos de dados de background para estabelecer servidores em nuvem para coletar e armazenar dados, e utilizar um sistema especializado para manutenção e testes.

Neste processo, é fundamental estabelecer e manter instalações de infraestrutura, incluindo bancos de dados, sistemas de armazenamento, etc. A este respeito, as empresas de Internet têm vantagens: empresas como a Baidu têm tido um bom desempenho na construção de infra-estruturas. Para o campo da condução autônoma, o tamanho do conjunto de dados é muito importante. Os conjuntos de dados na academia geralmente têm várias centenas de gigabytes, enquanto a indústria exige conjuntos de dados maiores, como dezenas de terabytes ou centenas de terabytes.

Quando se trata de testes e armazenamento, você precisa considerar como testar em diversas máquinas e como coletar e organizar os resultados dos testes. Isso requer um sistema muito estável. Em resumo, construir conjuntos de dados em grande escala e definir critérios e indicadores de avaliação é um processo desafiador que requer apoio técnico e investimento em muitos aspectos.

6. Como continuar a usar dados de mapas de nuvens de pontos acumulados anteriormente em modelos que não usam lidar para melhorar a eficiência e evitar o redesenvolvimento de novas direções técnicas?

Gao Xiang: Existem várias opções de como os modelos que não usam lidar na área de direção autônoma podem continuar a usar os dados do mapa de nuvem de pontos acumulados anteriormente. Uma delas é criar mapas e posições detectando características como linhas de pistas e paredes em cenas específicas, como garagens. No entanto, este método depende muito da estabilidade e precisão dos resultados de detecção. Outra opção é utilizar a tecnologia de visão para reconstruir nuvens de pontos, mas sua capacidade de generalização ainda precisa ser verificada. A tecnologia de sensor atual ainda está em desenvolvimento. Se você usar binóculos para construir uma nuvem de pontos, sua essência é semelhante ao lidar de estado sólido, mas a precisão da nuvem de pontos não pode ser fixada como um radar, mas está relacionada à distância medida.

Em relação à ideia de usar métodos visuais para criar mapas locais e usar a correspondência de recursos do Surf, acho que a viabilidade precisa considerar a estabilidade e a precisão do mapeamento visual. O mapeamento visual precisa ser baseado em dados tridimensionais confiáveis, e a visão binocular pode ser afetada por fatores como textura e cor, levando à incerteza na posição espacial. Isto exige que consideremos a consistência e estabilidade dos dados visuais, bem como o grau de correspondência com os dados do radar.

Há uma equipe na Coreia do Sul fazendo reconstrução circundante e, em seguida, mapeamento de nuvens de pontos para posicionamento interno. Mas só vi a demonstração deles até agora e não vi aplicações específicas de produtos. Acredito que o radar de estado sólido pode se tornar mais barato no futuro, e o equipamento TOF externo também pode se tornar popular, o que fornecerá dados de percepção mais estáveis ​​para a direção autônoma.

Em geral, a consistência e a estabilidade do mapa de nuvem de pontos reconstruído visualmente podem variar à medida que a cena e a trajetória do veículo mudam. O que precisamos considerar é como garantir a estabilidade e a consistência dos dados visuais em diferentes cenas e estados de movimento para obter uma precisão que corresponda aos dados do radar.

7. Com a tendência subsequente de produção em massa de condução autônoma L2 com mapas leves ou mesmo sem mapas, que papel o SLAM pode continuar a desempenhar?

Gao Xiang: Em relação aos mapas leves ou sem mapas, isso não cancela completamente o mapa, mas transforma o mapa construído offline em um processo de construção online em tempo real do lado do veículo. Do lado dos automóveis, é dada mais atenção ao mapeamento ao nível das estradas, ou seja, faixas e extensões de estradas. Embora a actual abordagem dominante possa atingir este objectivo, o efeito é altamente incerto e pode não satisfazer todas as situações. Sou cético em relação à direção autônoma de nível L4, pensando que ela pode não ser capaz de atingir requisitos de alta precisão.

Agora todo mundo está usando BEV, mas pode ficar saturado em alguns anos. Para atingir a condução autónoma de nível L4, depende fortemente de mapas de alta definição, o que é de facto um problema. Penso que o BEV pode não ser capaz de atingir este nível.Se quisermos perseguir uma taxa de aquisição baixa e fazê-lo através do BEV, não creio que possamos alcançar funções L4 semelhantes. Isto requer considerar se esta é uma função de nível L2 ou uma função de nível L4.

Para a função de estacionamento, se o carro estiver estacionado no limite da vaga, o motorista estará basicamente ao lado do carro, neste momento não há necessidade de perseguir a taxa de ocupação. Mas se o carro for estacionado em uma vaga, isso envolve funções de nível L4, porque é impossível para o motorista voltar e estacionar após uma falha. Alcançar a direção autônoma do nível L4 requer o uso de métodos L4 tradicionais, como mapas de alta precisão, mapas de radar, mapas de nuvens de pontos, etc., para a construção de estacionamentos. Claro que, idealmente, seria possível explorar em tempo real enquanto caminha e descobrir tudo o que está lá dentro, mas ainda não é possível implementar esta função de forma fiável. Portanto, acho que ainda devemos usar a rotina L4, focando mais na manutenção leve, na geração rápida e na geração e manutenção simplificada de imagens de alta definição.

8. O que você acha das vantagens da nova estrutura organizacional de grande percepção que surgiu recentemente em algumas empresas de condução autônoma, ou seja, as estruturas organizacionais de mapeamento de percepção e posicionamento são colocadas no mesmo departamento?

Gao Xiang: A nova estrutura organizacional de percepção em larga escala que surgiu nas empresas de condução autônoma coloca o mapeamento de percepção e posicionamento das estruturas organizacionais no mesmo departamento. Esta abordagem tem certas vantagens. No geral, seria melhor olhar agora para L2 e L4 separadamente. Se for uma estrutura de empresa L2, não há problema com tal posicionamento. Atualmente, muitas empresas defendem a remoção de mapas de alta precisão ou a utilização parcial de mapas de alta precisão para que os veículos possam identificar a sua localização com base em marcações rodoviárias ou no pavimento. Unir percepção e localização torna todo o sistema mais abrangente.

Contudo, o comportamento abrangente de um robô ou veículo não precisa necessariamente seguir a arquitetura L4 existente. Muitas empresas L4 não possuem funções perfeitas, como manutenção de faixa, e todo o sistema depende muito de mapas e posicionamento de alta precisão. Como devem os veículos responder em situações como túneis ou áreas montanhosas onde o posicionamento de alta precisão não pode ser totalmente garantido? Isto requer um nível mais elevado de pessoal abrangente para projetar o comportamento do veículo.

Ao mesmo tempo, em aplicações práticas, existe uma contradição entre os indicadores de usabilidade e precisão do sistema. Se o índice de precisão não atender aos requisitos, o veículo terá que parar. Portanto, ao projetar a estrutura da empresa, é preciso considerar como resolver essa contradição. Isto requer um nível mais elevado de pessoal abrangente para projetar o comportamento do veículo para se adaptar a diferentes cenários. Colocar a percepção e o posicionamento no mesmo departamento pode ajudar a resolver este problema e melhorar o desempenho e a estabilidade dos sistemas de condução autónoma.

9. Em relação à configuração do sensor do robô humanóide, devemos escolher o tipo binocular para atender às necessidades de percepção e posicionamento compatíveis, ou devemos escolher lidar ou sensor de profundidade para garantir que ele possa funcionar em situações extremas? Como tomar essa decisão ao iniciar um negócio de fabricação de robôs humanóides?

Gao Xiang: Em relação à configuração dos sensores dos robôs humanóides, é necessário primeiro esclarecer as funções específicas e os objetivos de negócios do robô e, em seguida, selecionar os sensores correspondentes com base nesses objetivos. Por exemplo, se um robô for projetado especificamente para agarrar objetos, a configuração do sensor será clara. Se um robô humanóide de uso geral for construído, a seleção de sensores será mais complicada e múltiplas possibilidades deverão ser consideradas.

No processo de design, o papel dos gerentes de produto é muito importante, eles precisam entender a tecnologia e não podem propor requisitos funcionais apenas com base na imaginação, pois esses requisitos podem não ser realizados. O projeto de robôs humanóides precisa considerar problemas de negócios específicos e objetivos funcionais e, em seguida, derivar a configuração necessária do sensor.

10. O que você acha dos métodos operacionais e dificuldades técnicas da Boston Dynamics?

Gao Xiang: Teve um certo impacto na indústria, mas não encontrou um bom modelo de negócio. O seu percurso de desenvolvimento tecnológico baseou-se em investimentos de alto custo nos primeiros anos, o que agora conduz a dificuldades de comercialização. Por exemplo, no domínio da condução autónoma, empresas como a Boston Dynamics, e mesmo a Google e a Baidu, a sua abordagem é adquirir o melhor equipamento no momento para realizar as suas diversas funções independentemente do custo, tornando o efeito da condução autónoma melhor, mas o o custo é elevado, dificultando a aceitação pelos consumidores.

Para a indústria robótica, as tendências futuras de desenvolvimento serão mais complexas. Os motores se tornarão mais numerosos, as articulações se tornarão mais complexas e as informações se tornarão mais versáteis. Em termos de caminhada autônoma, espera-se que o robô possa realizar funções como agarrar e caminhar automaticamente em estradas complexas. Se você continuar a se envolver em negócios como limpeza, logística ou entrega de alimentos, a forma atual está relativamente madura e poderá reduzir os custos dos sensores e aumentar o tamanho do mercado no futuro.

Realizar um robô com capacidades autônomas de caminhar e agarrar requer um alto nível de conteúdo técnico. A direção geral está correta, mas quem dá passos maiores e quem dá passos menores afetará a velocidade e a certeza da realização.

11. Qual é a sua opinião sobre a situação atual e o desenvolvimento futuro da indústria robótica?

Gao Xiang: A julgar pela situação atual, a indústria robótica está se desenvolvendo rapidamente e é relativamente em grande escala. Em comparação com os dois anos anteriores, o conteúdo técnico melhorou e o desenvolvimento da tecnologia dura tornou toda a indústria maior, o que é uma boa tendência. No entanto, em comparação com a condução autónoma, a indústria robótica presta mais atenção aos custos e à produção real do produto.

Atualmente, a maioria das pessoas ainda está pesquisando e desenvolvendo tecnologia robótica, mas ela ainda está em fase piloto e ainda é muito diferente dos táxis autônomos e outras formas originalmente previstos. A indústria robótica é mais prática e precisa considerar fatores como qual problema resolver, a que custo resolver o problema e como vender o produto.

É uma verdade muito dura que os robôs possam substituir as pessoas. Se o custo puder ser reduzido, eles poderão de fato substituir as pessoas para fazer algumas coisas. Vale a pena examinar a indústria da robótica como um todo porque é uma coisa prática.


  Sobre a comunidade de inteligência artificial TechBeat

TechBeat (www.techbeat.net) é afiliado à Jiangmen Venture Capital e é uma comunidade em crescimento que reúne elites globais de IA chinesas.

Esperamos criar mais serviços e experiências profissionais para talentos de IA, acelerar e acompanhar a sua aprendizagem e crescimento.

Espero que este seja um terreno elevado para você aprender conhecimentos de IA de ponta, um terreno fértil para compartilhar seu trabalho mais recente e uma base para atualizar e lutar contra monstros no caminho para a IA avançada!

Introdução mais detalhada >> TechBeat, uma comunidade de aprendizagem e crescimento que reúne elites globais de IA chinesas

Acho que você gosta

Origin blog.csdn.net/hanseywho/article/details/132496944
Recomendado
Clasificación