Visão geral do modelo de direção de ponta a ponta para veículos não tripulados

Resumo:

Normalmente, os modelos de direção ponta a ponta usam uma rede neural profunda para realizar esse mapeamento e todos os parâmetros da rede são treinados em conjunto. Esta abordagem é notável por sua simplicidade e eficiência.

introdução

Ao construir um veículo não tripulado, a principal tarefa de meus amigos e eu era construir um modelo de direção. O chamado modelo de direção é o software que controla a direção do veículo não tripulado. É funcionalmente semelhante a um motorista. Sua entrada é o status do veículo e as informações do ambiente circundante e a saída é o sinal de controle do veículo não tripulado. De todos os modelos de direção, o mais direto é o modelo de direção de ponta a ponta. O modelo de direção de ponta a ponta deriva os sinais de controle do veículo diretamente do estado do veículo e das informações do ambiente externo. Do final da entrada (os dados brutos do sensor) ao final da saída (sinal de controle), não há necessidade de recursos projetados artificialmente. Normalmente, os modelos de direção ponta a ponta usam uma rede neural profunda para realizar esse mapeamento e todos os parâmetros da rede são treinados em conjunto. Esta abordagem é notável por sua simplicidade e eficiência.

O Teorema da Aproximação Universal (UAT) fornece algumas bases teóricas para esta abordagem [1]. O UAT mostra que uma rede feedforward com muitos nós ocultos pode aproximar uma função contínua definida em um subconjunto compacto do espaço euclidiano com qualquer precisão ao usar uma função contínua limitada não constante como a função de ativação. Assumimos que o comportamento humano ao dirigir é uma função contínua definida em um subconjunto compacto do espaço euclidiano. Então, deve existir uma rede neural que possa aproximar o melhor motorista humano do mundo com precisão arbitrária. Embora o UAT não nos diga como encontrar essa rede, cientistas intrépidos já embarcaram em uma jornada.

A evolução dos modelos de direção de ponta a ponta

As primeiras tentativas de encontrar um modelo de direção de ponta a ponta remontam pelo menos ao modelo ALVINN em 1989 [2]. ALVINN é uma rede neural de três camadas cujas entradas incluem dados de vídeo da estrada à frente, dados de telêmetro a laser e um feedback de intensidade. Para a entrada de vídeo, o ALVINN usa apenas seu canal azul, porque no canal azul o contraste entre estrada e não estrada é mais forte. Para os dados do telêmetro, a intensidade de ativação dos neurônios é proporcional à distância de cada ponto capturado ao veículo. O feedback de intensidade descreve o brilho relativo da estrada e não pavimentação na imagem anterior. A saída de ALVINN é um vetor que indica a direção a seguir e a entrada de feedback de intensidade para o próximo momento. A estrutura de rede específica é mostrada na Figura 1.

Figura 1: Diagrama esquemático da estrutura da rede do ALVINN, a foto é citada em [2]

Ao treinar ALVINN, a verdade básica de sua saída é definida como uma distribuição. A posição central da distribuição corresponde à direção que permite que o veículo se desloque para o centro da estrada 7 metros à frente, e a distribuição decai rapidamente para 0 do centro para ambos os lados. Além disso, uma grande quantidade de dados sintéticos de estradas é usada no processo de treinamento, que é usado para melhorar a capacidade de generalização do ALVINN. O modelo dirigiu com sucesso uma estrada de 400 metros de comprimento a uma velocidade de 0,5 metros por segundo. Em 1995, a Carnegie Mellon University permitiu que o ALVINN detectasse estradas e cruzamentos introduzindo uma câmera virtual baseada no ALVINN [3]. Além disso, Yann LeCun, da Universidade de Nova York, forneceu um robô de ponta a ponta para evitar obstáculos, construído com uma rede neural convolucional de 6 camadas em 2006 [4].

Nos últimos anos, o trabalho mais influente é o PilotNet [5] desenvolvido pela NVIDIA em 2016. Conforme mostrado na Figura 2, o modelo usa camadas convolucionais e totalmente conectadas para extrair recursos da imagem de entrada e fornecer o ângulo do volante (raio de giro). Da mesma forma, a NVIDIA também forneceu um conjunto de plataforma de computação NVIDIA PX 2 para testes reais de veículos. No trabalho de acompanhamento da NVIDIA, eles também visualizaram os recursos aprendidos dentro do PilotNet e descobriram que o PilotNet pode prestar atenção espontaneamente a obstáculos, linhas de pista e outros objetos que têm valor de referência importante para dirigir [6].

Figura 2: Diagrama esquemático da estrutura de rede do PilotNet, a foto é citada em [5]

Modelos posteriores ao PilotNet surgiram. Um representante importante é a rede FCN-LSTM proposta pela Universidade da Califórnia, Berkeley [7]. Conforme mostrado na Figura 3, a rede primeiro abstrai a imagem em uma forma vetorial de recursos por meio da rede convolucional completa e, em seguida, funde os recursos atuais com os anteriores por meio da rede de memória de longo prazo e gera o sinal de controle atual. Vale ressaltar que a rede utiliza uma tarefa de segmentação de imagem para auxiliar no treinamento da rede, sendo uma tentativa interessante de alterar os parâmetros da rede de "desordenado" para "ordenado" com mais sinais supervisórios. O trabalho acima foca apenas no “controle lateral” do veículo não tripulado, ou seja, no canto do volante. A rede multimodal multitarefa proposta pela Universidade de Rochester [8] é baseada no trabalho anterior, não só dá o ângulo do volante, mas também dá a velocidade esperada, que inclui "controle longitudinal", então o completo O a maioria dos sinais de controle básicos exigidos por veículos não tripulados são fornecidos e sua estrutura de rede é mostrada na Figura 4.

Figura 3: Diagrama esquemático da estrutura da rede FCN-LSTM, a figura é citada em [7]

Figura 4: Diagrama esquemático da estrutura de rede multimodal multitarefa, a figura é citada em [8]

A rede ST-Conv + ConvLSTM + LSTM proposta pela Peking University é mais refinada [9]. Conforme mostrado na Figura 5, a rede é dividida em duas partes, ou seja, a sub-rede de extração de recursos e a sub-rede de previsão de ângulo de orientação. A sub-rede de extração de recursos utiliza convolução espaço-temporal, agregação residual multiescala, rede de memória convolucional de longo prazo e outras técnicas ou módulos de construção. A sub-rede de previsão de ângulo de direção realiza principalmente a fusão e circulação de informações de séries temporais. Os autores da rede também descobriram que o controle lateral e o controle vertical de veículos não tripulados têm uma forte correlação; portanto, a previsão conjunta dos dois controles pode ajudar a rede a aprender com mais eficiência.

Figura 5: Diagrama esquemático da estrutura da rede ST-Conv+ConvLSTM+LSTM, a figura é citada em [9]

Características do modelo de direção de ponta a ponta

Falando nisso, você deve ter descoberto que o modelo ponta a ponta se beneficiou do rápido desenvolvimento da tecnologia de aprendizado profundo e está constantemente se desenvolvendo em uma direção mais sofisticada. Da rede inicial de três camadas, ela é gradualmente armada com os módulos e técnicas mais recentes. Com o suporte dessas tecnologias mais recentes, o modelo de direção de ponta a ponta basicamente realizou funções como direção em estrada reta, direção em curva e controle de velocidade. Para que todos possam entender o estado atual de desenvolvimento do modelo end-to-end, fazemos uma comparação simples entre este modelo e o modelo tradicional no nível do algoritmo, conforme mostrado na Tabela 1 abaixo:

Tabela 1: Comparação do modelo de condução tradicional e modelo de ponta a ponta

Os modelos tradicionais geralmente dividem as tarefas de direção em vários submódulos, como percepção, localização, mapeamento, planejamento, controle e assim por diante. Cada submódulo completa uma função específica, a saída de um determinado módulo é usada como entrada de outros módulos e os módulos são conectados entre si para formar uma estrutura de grafo direcionado. Este método requer desacoplamento manual das tarefas de direção do veículo não tripulado e o design de cada submódulo, e o número de submódulos pode chegar a milhares, resultando em trabalho demorado e trabalhoso e alta manutenção custos. Muitos submódulos apresentam requisitos extremamente altos na plataforma de computação de bordo, o que requer um poderoso poder de computação para garantir que cada módulo possa responder rapidamente às mudanças no ambiente. Além disso, os modelos de direção tradicionais geralmente dependem de mapas de alta precisão, resultando em altos custos de dados. Esse tipo de modelo usa lógica regular para planejar e controlar o movimento de veículos não tripulados, o que leva a um estilo de direção antropomórfico fraco e afeta o conforto de direção. Em contraste, o modelo end-to-end apresenta fortes vantagens devido à sua simplicidade, facilidade de uso, baixo custo e antropomorfismo.

As pessoas costumam pensar no modelo de condução de ponta a ponta como antitético ao modelo tradicional de modularidade.Com o modelo modular, não há necessidade de ponta a ponta. Mas no campo da entrega não tripulada, acho que os dois deveriam ser complementares. Em primeiro lugar, as características "pequenas, leves, lentas e objetivas" dos veículos de entrega não tripulados [10] reduzem muito seus riscos de segurança. Permite a implantação de modelos de ponta a ponta. Então, o modelo end-to-end lida bem com cenários comuns e com baixo consumo de energia. A abordagem modular pode abranger mais cenários, mas consome muita energia. Portanto, uma orientação valiosa deve ser a implantação conjunta de modelos de ponta a ponta e modelos modulares. Use de ponta a ponta para cenários comuns e mude para um modelo modular para cenários complexos. Desta forma, podemos reduzir ao máximo o consumo de energia do veículo de entrega, mantendo o desempenho geral do modelo.

Então, veremos veículos de entrega não tripulados controlados por modelos de direção de ponta a ponta em breve? Na verdade, o modelo de condução de ponta a ponta ainda está em fase de pesquisa. Eu resumi as seguintes dificuldades da minha experiência de trabalho real:

1. O modelo de direção de ponta a ponta é difícil de depurar devido às suas características quase de caixa preta.

Como o modelo ponta a ponta funciona como um todo, quando o modelo falha em determinada situação, é quase impossível encontrar no modelo o "submódulo" que deveria ser o responsável por essa falha, e não há como direcionar isso. Sintonia. Ao encontrar um exemplo de falha, a abordagem usual pode ser apenas adicionar mais dados, esperando que o modelo retreinado possa passar por esse exemplo na próxima vez.

2. É difícil introduzir conhecimento prévio no modelo de direção de ponta a ponta.

Os atuais modelos de ponta a ponta estão mais imitando as ações de motoristas humanos, mas não entendem as regras por trás das ações humanas. É difícil permitir que o modelo aprenda regras como regras de trânsito e direção civilizada de maneira puramente orientada por dados, e mais pesquisas são necessárias.

3. É difícil para os modelos de direção de ponta a ponta lidar adequadamente com cenários de cauda longa.

Para cenários comuns, é fácil ensinar a um modelo de ponta a ponta a abordagem correta de maneira orientada por dados. No entanto, as condições reais das estradas variam muito e não podemos coletar dados de todos os cenários. Para cenas que o modelo não viu, o desempenho do modelo costuma ser preocupante. Como melhorar a capacidade de generalização do modelo é um problema urgente a ser resolvido.

4. Os modelos de direção de ponta a ponta geralmente aprendem técnicas de direção imitando o comportamento de controle de motoristas humanos. Mas o que esse método essencialmente aprende é o "sinal de controle médio" do motorista, e o "sinal de controle médio" pode nem ser um sinal "correto".

Por exemplo, em um entroncamento onde você pode virar à esquerda e à direita, o sinal de controle médio - "vá direto" - é um sinal de controle errado. Portanto, como aprender a estratégia de controle de motoristas humanos ainda precisa ser estudado.

Sobre esse assunto, meus amigos e eu trabalhamos um pouco juntos.Neste trabalho, determinamos que a operação do motorista em diferentes estados satisfaz uma distribuição de probabilidade. Estimamos essa distribuição aprendendo os diferentes momentos dessa distribuição de probabilidade. Desta forma, a estratégia de controle do motorista pode ser bem expressa pelo momento de sua distribuição de probabilidade, evitando o inconveniente de simplesmente buscar o "sinal de controle médio". Este trabalho foi aceito para o ROBIO 2018.

Métodos comuns usados em modelos de direção de ponta a ponta

Para resolver os vários problemas mencionados acima, cientistas corajosos propuseram muitos métodos, entre os quais os mais esperados são a tecnologia de aprendizado profundo [11] e a tecnologia de aprendizado por reforço [12]. Com o desenvolvimento contínuo da tecnologia de aprendizado profundo, acredita-se que a interpretabilidade e a capacidade de generalização do modelo serão aprimoradas ainda mais. Dessa forma, podemos ajustar a rede de maneira direcionada ou generalizar com sucesso para cenários de carros reais e cenários de cauda longa sob simulação aproximada e com menos dados. O aprendizado por reforço é uma técnica que tem alcançado resultados surpreendentes nos últimos anos. Também não se sabe se os veículos não tripulados podem obter melhores métodos de controle do que os motoristas humanos, permitindo que os veículos não tripulados realizem aprendizado por reforço em um ambiente simulado. Além disso, o rápido desenvolvimento de tecnologias como aprendizagem por transferência, aprendizagem contraditória e meta-aprendizagem também pode ter um grande impacto nos modelos de condução de ponta a ponta.

Estou muito entusiasmado com o futuro desenvolvimento de modelos de direção de ponta a ponta. "Duas estradas divergiram em uma floresta, e eu peguei a menos percorrida" [13].

referências

[1] Csáji, Balázs Csanád. "Aproximação com redes neurais artificiais." Faculdade de Ciências, Etvs Lornd University, Hungria 24 (2001): 48.

[2] Pomerleau, Dean A. "Alvinn: Um veículo terrestre autônomo em uma rede neural." Em Avanços em sistemas de processamento de informações neurais, pp. 305-313. 1989.

[3] Jochem, Todd M., Dean A. Pomerleau e Charles E. Thorpe. "Rodovia de rede neural baseada em visão e detecção e travessia de interseção." In Intelligent Robots and Systems 95. 'Human Robot Interaction and Cooperative Robots', Proceedings. 1995 IEEE/RSJ Conferência Internacional sobre, vol. 3, pp. 344-349. IEEE, 1995.

[4] Muller, Urs, Jan Ben, Eric Cosatto, Beat Flepp e Yann L. Cun. "Desvio de obstáculos off-road por meio do aprendizado de ponta a ponta." Em Avanços em sistemas de processamento de informações neurais, pp. 739-746. 2006.

[5] Bojarski, Mariusz, Davide Del Testa, Daniel Dworakowski, Bernhard Firner, Beat Flepp, Prasoon Goyal, Lawrence D. Jackel et al. "Aprendizado de ponta a ponta para carros autônomos." pré-impressão arXiv arXiv:1604.07316 (2016).

[6] Bojarski, Mariusz, Philip Yeres, Anna Choromanska, Krzysztof Choromanski, Bernhard Firner, Lawrence Jackel e Urs Muller. "Explicando como uma rede neural profunda treinada com aprendizado de ponta a ponta dirige um carro." pré-impressão arXiv arXiv:1704.07911 (2017).

[7] Xu, Huazhe, Yang Gao, Fisher Yu e Trevor Darrell. "Aprendizado de ponta a ponta de modelos de direção a partir de conjuntos de dados de vídeo em grande escala." pré-impressão arXiv (2017).

[8] Yang, Zhengyuan, Yixuan Zhang, Jerry Yu, Junjie Cai e Jiebo Luo. "Controle de veículo multitarefa multimodal de ponta a ponta para carros autônomos com percepção visual." pré-impressão arXiv arXiv:1801.06734 (2018).

[9] Chi, Lu e Yadong Mu. "Direção profunda: aprendendo o modelo de direção de ponta a ponta a partir de pistas visuais espaciais e temporais." pré-impressão arXiv arXiv:1708.03798 (2017).

[10] "Xia Huaxia: cenário de entrega não tripulada contribui para a iteração da tecnologia de direção autônoma",
http://auto.qq.com/a/20180621/029250.htm, Tencent Auto, 2018.

http://auto.qq.com/a/20180621/029250.htm, Tencent Auto, 2018.

[11] LeCun, Yann, Yoshua Bengio e Geoffrey Hinton. "Aprendizado profundo." natureza 521, nº. 7553 (2015): 436.

[12] Sutton, Richard S. e Andrew G. Barto. Aprendizagem por reforço: uma introdução. Imprensa do MIT, 2018.

[13] Frost, Robert. Intervalo de montanha. H. Holt, 1921.

Fonte | Meituan

Visão geral do modelo de direção de ponta a ponta para veículos não tripulados

Acho que você gosta