[Leitura de artigo] MARS: simulador modular e realista com reconhecimento de instância para direção autônoma

Insira a descrição da imagem aqui
código de papel

Abstrato

Agora que os carros autônomos podem dirigir suavemente em situações comuns, é amplamente reconhecido que simulações realistas de sensores desempenharão um papel fundamental na resolução dos casos extremos restantes por meio de simulação . Para tanto, propomos um simulador de direção autônoma baseado em Campos de Radiação Neural (NeRF). Comparado com os trabalhos existentes, nosso trabalho possui três características distintivas:
(1) Consciência de instância. Nosso simulador modela instâncias de primeiro plano e ambientes de segundo plano separadamente usando redes separadas para que as propriedades estáticas (por exemplo, tamanho e aparência) e dinâmicas (por exemplo, trajetória) das instâncias possam ser controladas de forma independente.
(2) Modularização. Nosso simulador permite a comutação flexível entre diferentes backbones modernos relacionados ao NeRF, estratégias de amostragem, modos de entrada, etc. Esperamos que este design modular possa promover o avanço acadêmico e a implantação industrial de simulações de direção autônoma baseadas em NeRF.
(3) Autenticidade. Levando em consideração a melhor seleção de módulos, nosso simulador está configurado com novos resultados fotorrealistas de última geração. Nosso emulador será de código aberto, enquanto a maioria dos emuladores semelhantes não. Página do projeto: https://open-air-sun.github.io/mars/ .

1. Introdução

A direção autônoma [11, 13, 33, 16, 24, 14] pode ser considerada a aplicação mais importante da moderna tecnologia de compreensão de cenas 3D [5, 25]. Agora, a Robotaxis pode operar em grandes cidades com os mais recentes mapas de alta definição, lidando facilmente com cenários de condução diários. No entanto, uma vez que uma situação extrema além da distribuição do algoritmo de condução autônoma ocorra inesperadamente na estrada, a vida dos passageiros estará ameaçada. O dilema é que, embora precisemos de mais dados de formação sobre casos extremos, coletá-los no mundo real muitas vezes significa perigo e despesas elevadas. Por este motivo, a comunidade acredita que a simulação fotorrealística [17, 6, 29, 10] é um caminho tecnológico com grande potencial. Se o algoritmo puder experimentar um grande número de situações extremas no simulador, e a lacuna entre a simulação e a realidade for pequena, então o gargalo de desempenho dos atuais algoritmos de direção autônoma poderá ser resolvido.

Os métodos existentes de simulação de direção autônoma têm suas próprias limitações. CARLA [8] é um simulador de sensor amplamente utilizado baseado em motores gráficos tradicionais, cujo realismo é limitado pela qualidade da modelagem e renderização dos ativos. AADS [17] também aproveita mecanismos gráficos tradicionais, mas demonstra fotorrealismo impressionante usando recursos cuidadosamente selecionados. GeoSim [6], por outro lado, introduz um esquema baseado em dados para simulação realista através do aprendizado de uma rede de aumento de imagem. A geração e renderização flexíveis de ativos podem ser alcançadas por meio da composição de imagens com boa geometria e aparência realista.

Neste artigo, utilizamos os recursos de renderização realista do NeRF para simulação de direção autônoma. Os dados de treinamento capturados em ambientes da vida real garantem uma pequena lacuna entre a simulação e a realidade. Alguns trabalhos também utilizam NeRF para simular carros em ambientes externos [20] e fundos estáticos [10]. No entanto, a incapacidade de modelar cenas dinâmicas complexas que consistem em objetos em movimento e ambientes estáticos limita a sua aplicação prática em simulações de sensores do mundo real. Recentemente, o Neural Scene Graph (NSG) [21] decompõe cenas dinâmicas em gráficos de cenas de aprendizagem e aprende representações latentes de objetos em nível de categoria. No entanto, sua representação de modelagem de fundo baseada em vários planos não pode sintetizar imagens sob grandes mudanças de ponto de vista.

Especificamente, nossa principal contribuição é a primeira estrutura modular de código aberto baseada em NeRF para simulações realistas de direção autônoma. O pipeline proposto modela instâncias em primeiro plano e ambientes em segundo plano de maneira decomposta. Diferentes arquiteturas de backbone NeRF e métodos de amostragem são combinados de maneira unificada e suportam entradas multimodais. A combinação ideal de módulos da estrutura proposta alcança desempenho de renderização de última geração em benchmarks públicos com grandes margens, demonstrando resultados de simulação realistas.

2 Método

Insira a descrição da imagem aqui
Figura 1. Pipeline. Esquerda: Primeiro calculamos o raio de consulta r e todas as caixas delimitadoras de instância visíveis { B ij } \{\mathcal{B}_{ij}\}{ Beu} interseção da caixa de raios de }. Para nós de fundo, usamos diretamente o modelo de representação de cena selecionado e o amostrador selecionado para inferir propriedades pontuais, assim como no NeRF tradicional. Para nós de primeiro plano, os raios são primeiro convertidos em quadros de instânciaro r_oRóe então processado por meio da representação do nó em primeiro plano (Seção 2.1). Direita: Todas as amostras são combinadas e renderizadas em imagens RGB, mapas de profundidade e semântica (Seção 2.2).

Visão Geral
Como mostrado na Figura 1, nosso objetivo é fornecer uma estrutura modular para a construção de campos de radiação neural combinados onde simulações realistas de sensores possam ser realizadas para cenários de condução ao ar livre. Considere um grande ambiente externo ilimitado com um grande número de objetos dinâmicos.

A entrada para o sistema inclui um conjunto de imagens RGB { L i } N \{\mathcal{L}_i\}^N{ eueu}N (capturado por sensores na lateral do veículo ou na estrada), atitude do sensor{ T i } N \{\mathcal{T}_i\}^N{ Teu}N (calculado usando sinais IMU/GPS) e trajetória do objeto (incluindo delimitação 3D) caixa{ B ij } N × M \{\mathcal{B}_{ij}\}^{N \times M}{ Beu}N × M、类别{ tipoij } N × M \{tipo_{ij}\}^{N \times M}{ tipo _ _ _eu}N × M e ID da instância{ idxij } N × M \{idx_{ij}\}^{N \times M}{ eu d xeu}N × M ). N é o número de quadros de entrada, M é a instância de rastreamento { O i } M \{\mathcal{O}_i\}^Mem toda a sequência{ Oeu}O número de M. Um conjunto opcional de mapas de profundidade{ D i } N \{\mathcal{D}_i\}^N{ Deu}N e máscara de segmentação semântica{ S i } N \{\mathcal{S}_i\}^N{ Seu}N serve como um sinal de supervisão adicional. Ao construir campos neurais combinados, a estrutura proposta pode simular sinais reais de detecção de sensores (incluindo imagens RGB, mapas de profundidade, máscaras de segmentação semântica, etc.) sob uma determinada pose de sensor. A edição de instâncias de trajetórias e aparências de objetos também é suportada.

Gasoduto.

Nossa estrutura modela cada instância de primeiro plano e nó de segundo plano combinados. Conforme mostrado na Figura 1, ao consultar as propriedades (RGB, profundidade, semântica, etc.) de um determinado raio r, primeiro calculamos sua interseção com as caixas delimitadoras 3D de todos os objetos visíveis para obter as distâncias de entrada e saída [ estanho , tout ] [t_{in}, t_{out}][ tdentro,tvocê não _] . Em seguida, o nó de fundo (canto superior esquerdo na Figura 1) e o nó do objeto de primeiro plano (canto inferior esquerdo na Figura 1) são consultados, onde cada nó amostra um conjunto de pontos 3D e usa sua rede de representação neural específica para obter atributos de ponto (RGB, densidade, espera semântica). Especificamente, para consultar os nós de primeiro plano, transformamos a origem e a direção do raio do espaço mundial em quadros de instância com base nas trajetórias dos objetos. Finalmente, todas as amostras de raios dos nós de fundo e de primeiro plano são combinadas e renderizadas em volume para produzir um resultado de renderização pixel por pixel (lado direito da Figura 1, Seção 2.2).

Observamos que os nós de fundo (muitas vezes cenas ilimitadas em grande escala) têm propriedades diferentes dos nós de primeiro plano centrados no objeto, enquanto o trabalho atual em simulação de sensores [15, 21] usa um modelo NeRF unificado. Nossa estrutura fornece uma estrutura de código aberto flexível que suporta diferentes opções de design para representação de cenas de nós de fundo e primeiro plano e pode facilmente combinar novos métodos de última geração para reconstrução de cena estática e reconstrução centrada em objeto.

2.1 Representação de Cena

Decompomos a cena em um NeRF ilimitado em grande escala (como nós de fundo) e vários NeRFs centrados em objetos (como nós independentes de primeiro plano). Tradicionalmente, o campo de radiação neural mapeia uma determinada coordenada de ponto 3D x = (x, y, z) e direção de visualização 2D d para sua radiância c e densidade de volume σ, como mostrado na Eq. 1. 1. Com base nesta representação pioneira, muitas variações foram propostas para diferentes finalidades, por isso adotamos um design modular.

Insira a descrição da imagem aqui
O desafio da modelagem realista de cenas de fundo ilimitadas é representar com precisão a região distante, por isso utilizamos distorção de cena ilimitada [2] para reduzir a região distante. Para nós de primeiro plano, oferecemos suporte à representação condicional de código f (x, d, z) = (c, σ) (z representa o código latente em nível de instância) e à representação tradicional, explicada abaixo.

Arquiteturas.

Em nossa estrutura modular, oferecemos suporte a vários backbones NeRF, que podem ser divididos aproximadamente em duas superclasses: métodos baseados em MLP [18, 1, 2] ou métodos baseados em grade, que usam HashNets em seus Armazenar vértices de recursos que variam espacialmente na rede. voxels [19,23]. Embora essas arquiteturas difiram entre si em detalhes, elas seguem a mesma formulação de alto nível1 e são encapsuladas em módulos sob uma interface unificada no MARS.

Embora a representação baseada em MLP seja matematicamente simples, damos uma elaboração formal da abordagem baseada em grade. Grade de recursos multi-resolução { G θ l } l = 1 L \{\mathcal{G}_{\theta}^{l}\}^{L}_{l=1}{ Geueu}eu = 1euA implementação específica de tem resolução camada por camada R l : = ⌊ R min ⋅ bl ⌋ , b = exp ( ln R max − ln R min L − 1 ) R_l := ⌊R_{min} · b^l⌋ , b = exp(\frac{ln R_{max} − ln R_{min}}{ L−1})Reu:=⌊R _minbeu,b=e x p (eu - 1eu n Rma xeu n Rmin) , entre os quaisR min , R max R_{min}, R_{max}RminRma xsão as resoluções mais grosseiras e melhores [31,19]. A coordenada x é primeiro dimensionada para cada resolução e depois processada por operações ascendentes e descendentes como ⌈x⋅ _ _Reu, x Reu e hash para obter o índice da tabela [19]. Os vetores de recursos extraídos são então interpolados trilinearmente e decodificados por MLP superficial.

Insira a descrição da imagem aqui
Amostragem.
Apoiamos várias estratégias de amostragem, incluindo a rede recentemente proposta [2], que extrai campos de densidade de modelos NeRF livres de radiação para gerar amostras de raios, bem como outros esquemas de amostragem, como amostragem grosseira a fina [18] ou amostragem uniforme. amostragem [9].

Nós de primeiro plano.

Para renderizar instâncias de primeiro plano, primeiro transformamos os raios projetados no espaço de coordenadas de cada instância e depois inferimos o NeRF centrado no objeto no espaço canônico de cada instância. A configuração padrão de nossa estrutura usa um modelo condicional de código que utiliza códigos latentes para codificar recursos de instância e um decodificador de nível de classe compartilhado para codificar classes anteriores, permitindo a modelagem de muitas trajetórias longas com uso de memória compacta. Ao mesmo tempo, nossa estrutura também suporta condições tradicionais sem código. Detalhamos a representação modificada em primeiro plano (denotada como “Nossa” na Seção 3) no material suplementar.

Insira a descrição da imagem aqui
Figura 2. Renderização da composição. Alguns veículos estáticos na área distante são tratados como objetos de fundo.

2.2 Renderização Composicional

A Figura 2 mostra os resultados da renderização composta. Para tirar uma determinada pose de câmera T i \mathcal{T}_{i}TeuPara renderizar a imagem, lançamos um raio r = o + tdr = o + td em cada pixel renderizadoR=ó+td . _ Para cada raio r, primeiro calculamos a relação com todos os nós visíveis do primeiro planoO ij \mathcal{O}_{ij}ÓeuO intervalo de intersecção [ tin , tout ] [t_{in}, t_{out}][ tdentro,tvocê não _] (Figura 3) e compare a amostra{ P kobj − j } \{\mathcal{P}_{k}^{obj-j}\}{ Pko bj j} Transforme ao longo dos raios do espaço mundial para o espaço normativo por primeiro plano. Também amostramos um conjunto de pontos 3D{ P kgb } \{\mathcal{P}_{k}^{gb}\}{ Pkg -b} como amostra de plano de fundo. Amostras em todos os nós são primeiro passadas por suas redes correspondentes para obter cores pontuais{ ckbg , obj } \{c_{k}^{bg,obj}\}{ ckbg , o bj _} e defina{ σ kbg , obj } \{σ_{k}^{bg,obj}\}{ pkbg , o bj _} e lógica semântica de primeiro plano{ skbg } \{s_{k}^{bg}\}{ skbg _} . Considerando que as propriedades semânticas das amostras de primeiro plano são na verdade seus rótulos de classe, criamos um vetor one-hot:

Insira a descrição da imagem aqui
Para agregar propriedades pontuais, classificamos todas as amostras pela distância do raio no espaço mundial e renderizamos as propriedades pixeladas usando uma passagem de renderização de volume padrão:
Insira a descrição da imagem aqui

2.3 Rumo à renderização realista

Modelagem do Céu.
Em nossa estrutura, apoiamos o uso de modelos de céu para lidar com a aparência em distâncias infinitas, onde mapas de ambiente esféricos baseados em MLP [22] são utilizados para modelar regiões infinitas que nunca cruzam superfícies opacas: No entanto, atribuir ingenuamente a cor do
Insira a descrição da imagem aqui
céu csky c_{céu}c_ _A mesclagem com a renderização de fundo e primeiro plano (Equação 4) leva a possíveis inconsistências. Portanto, introduzimos a regularização semântica BCE para aliviar este problema:

Insira a descrição da imagem aqui
Resolvendo Amostras de Conflitos
Insira a descrição da imagem aqui
Figura 3. Demonstração visual de nosso processo de amostragem livre de conflitos. Ilustramos o uso de amostragem uniforme em todos os nós.

Resolvendo Amostras de Conflito
Como nossa amostragem de fundo e de primeiro plano é feita de forma independente, é possível que amostras de fundo caiam dentro da caixa delimitadora de primeiro plano (Figura 3 Amostra de truncamento de fundo). A renderização sintética pode classificar incorretamente as amostras de primeiro plano como plano de fundo (mais tarde referida como ambiguidade plano de fundo-primeiro plano). Portanto, após a remoção da instância de primeiro plano, artefatos aparecerão na área de fundo (Figura 4). Idealmente, com sinais de supervisão multivisualização suficientes, o sistema pode aprender automaticamente a distinguir entre primeiro e segundo plano durante o treinamento. No entanto, para simuladores baseados em dados, obter imagens multivisualização ricas e de alta qualidade à medida que os veículos se movem rapidamente na estrada é um desafio para os usuários. Esta ambiguidade não é observada no NSG [21] porque o NSG amostra apenas alguns pontos nas interseções do plano dos raios e é improvável que tenha muitas amostras de truncamento de fundo.

Insira a descrição da imagem aqui
Figura 4. Mostramos que sem regularização, amostras truncadas de fundo podem levar ao desfoque do fundo-primeiro plano.

Para resolver este problema, projetamos um termo de regularização que minimiza a soma das densidades das amostras truncadas de fundo para minimizar seu impacto durante a renderização:

Insira a descrição da imagem aqui
Entre eles { P i ( tr ) } \{P^{(tr)}_ i \}{ Peu( t r )} representa amostras truncadas em segundo plano.

2.4 Otimização

Para otimizar nosso sistema, minimizamos a seguinte função objetivo:
Insira a descrição da imagem aqui
onde λ 1 − 5 λ_{1−5}eu1 5é o parâmetro de ponderação. L céu L_{céu}eu_ _eeuum cc você mÉ explicado na Eq. 7 e 8.

Perda de cor:

Usamos perda MSE padrão para minimizar o erro fotométrico:
Insira a descrição da imagem aqui
Perda de profundidade:

Introduzimos uma perda de profundidade para explicar regiões sem textura e regiões observadas de pontos de vista esparsos. Elaboramos duas estratégias para supervisionar formas geométricas. Dados os dados de profundidade, exploramos a perda de distribuição de luz derivada de [7]. Por outro lado, se os dados de profundidade não estiverem disponíveis, utilizamos uma rede de profundidade única e aplicamos a seguinte perda de profundidade única de [31].

Insira a descrição da imagem aqui
Perdas semânticas:
seguimos SemanticNeRF [34] e usamos perdas semânticas de entropia cruzadaInsira a descrição da imagem aqui

3 experimentos

Nesta seção, fornecemos extensos resultados experimentais para demonstrar o simulador proposto, modular e realista, com reconhecimento de instância para direção autônoma. Avaliamos nosso método nos cenários do conjunto de dados KITTI [11] e do conjunto de dados Virtual KITTI-2 (V-KITTI) [3]. A seguir, usamos “nossas configurações padrão” para representar NeRF baseado em grade com um amostrador de proposta para nós de segundo plano e nossa representação modificada em nível de classe com um amostrador grosso a fino para nós de primeiro plano.

Insira a descrição da imagem aqui
Tabela 1. Resultados quantitativos na tarefa de reconstrução de imagem e comparação de configuração com métodos de linha de base. O conjunto de dados usado para avaliação é KITTI.

3.1 Renderização fotorrealística

Validamos o desempenho de renderização fotorrealística do simulador avaliando a reconstrução da imagem e a síntese de novas visualizações (NVS) [21, 26].

Insira a descrição da imagem aqui
Tabela 2. Resultados quantitativos da síntese de novas visualizações

Linhas de base
Realizamos comparações qualitativas e quantitativas com outros métodos de última geração: NeRF [18], NeRF com entrada com registro de data e hora (denotado NeRF+Time), NSG [21], PNF [15] e SUDS [26]. Note-se que nenhum deles satisfaz simultaneamente todos os três critérios mencionados na Tabela 1.

Detalhes de implementação:
Nosso modelo usa RAdam como otimizador e é treinado para 200.000 iterações com 4.096 raios por lote. A taxa de aprendizagem do nó de segundo plano é especificada como 1 ∗ 1 0 − 3 1 * 10^{−3}11 03 , decaindo para1 ∗ 1 0 − 5 1 * 10^{−5}11 05 , enquanto a taxa de aprendizagem do nó do objeto é atribuída a5 ∗ 1 0 − 3 5 * 10^{−3}51 03 , decaindo para1 ∗ 1 0 − 5 1 * 10^{−5}11 05

Insira a descrição da imagem aqui
Figura 5. Resultados qualitativos da reconstrução de imagens no conjunto de dados KITTI.

Configurações de experimento.

Os conjuntos de imagens de treinamento e teste na configuração de reconstrução de imagem são idênticos, enquanto na tarefa NVS renderizamos quadros que não estão incluídos nos dados de treinamento. Especificamente, treinamos a cada 4º, 2º e 4º quadros, e apenas 1 em cada 4º quadro, ou seja, 25%, 50% e 75%.

Seguimos protocolos de avaliação padrão em síntese de imagens e relatamos avaliações quantitativas de configurações padrão para relação sinal-ruído de pico (PSNR), similaridade estrutural (SSIM) e similaridade de patch de imagem perceptual de aprendizagem (LPIPS) [32]. Os resultados da reconstrução da imagem são mostrados na Tabela 1 e os resultados do NVS são mostrados na Tabela 2, o que mostra que nosso método supera o método de linha de base em ambas as configurações. Podemos atingir 29,79 PSNR no V-KITTI usando 75% dos dados de treinamento, enquanto o melhor resultado publicado anteriormente é 23,87.

Insira a descrição da imagem aquiFigura 6. Galeria de diferentes passagens de renderização.

3.2 Edição por instância

Nossa estrutura modela nós de segundo plano e de primeiro plano separadamente, o que nos permite editar cenas com reconhecimento de instância. Demonstramos qualitativamente a capacidade de excluir instâncias, adicionar novas instâncias e editar trajetórias de veículos. Na Figura 7 mostramos alguns exemplos de edição de rotação e translação do veículo, mas mais resultados podem ser encontrados em nosso videoclipe.

Insira a descrição da imagem aqui

3.3 A bênção do design do módulo

Realizamos avaliações usando diferentes combinações de nós de fundo e de primeiro plano, amostradores e sinais de supervisão, graças ao nosso design modular.

Observe que alguns métodos de referência na literatura correspondem, na verdade, às entradas de ablação nesta tabela. Por exemplo, PNF [15] usa NeRF como representação de nó de segundo plano e NeRF instanciado como representação de nó de primeiro plano com perda semântica. NSG [21] usa NeRF como representação de nó de fundo e NeRF em nível de categoria como representação de primeiro plano, mas adota uma estratégia de amostragem multiplano. Nossa configuração padrão usa representação de nó de fundo baseada em grade e nossa abordagem proposta em nível de classe para representação de nó de primeiro plano.

3.4 Resultados da Ablação

Nesta seção, analisamos diferentes configurações experimentais e verificamos a necessidade de nosso projeto. Revelamos o impacto de diferentes opções de design na representação do nó de fundo, representação do nó de primeiro plano, etc. Especificamente, mostramos todos os experimentos para 50.000 iterações. Ao contrário de trabalhos anteriores [26, 15, 21] que avaliaram seus métodos em sequências curtas de 90 imagens, utilizamos a sequência completa no conjunto de dados para todas as avaliações. Como não são de código aberto e sua sequência exata de avaliação não é conhecida, esperamos que nossos novos benchmarks possam padronizar esta importante área. A avaliação quantitativa é apresentada na Tabela 3.

Para nós de segundo e primeiro plano, substituímos o modelo padrão (ID 1 na Tabela 3) por modelos baseados em MLP e em grade e listamos suas métricas na linha 2, linhas 7 a 12. Nas linhas 3 a 6, mostramos a eficácia dos componentes do modelo. Para modelos e amostradores, os módulos selecionados para nós de segundo plano e de primeiro plano são anotados antes e depois da barra, respectivamente.

Insira a descrição da imagem aqui

4. Conclusão

Neste artigo, propomos uma estrutura modular para simulação realista de direção autônoma baseada em NeRF. Nossa estrutura de código aberto consiste em um nó de segundo plano e vários nós de primeiro plano e pode modelar cenas dinâmicas complexas. Demonstramos a eficácia de nossa estrutura por meio de extensos experimentos. O pipeline proposto atinge desempenho de renderização de última geração em benchmarks públicos. Também oferecemos suporte a diferentes opções de design para representação de cena e estratégias de amostragem, proporcionando flexibilidade e versatilidade durante simulações.
Limitações:
Nosso método requer horas de treinamento e não pode ser renderizado em tempo real. Além disso, nossa abordagem não leva em conta os efeitos dinâmicos de reflexão especular no vidro ou em outros materiais reflexivos, que podem levar a artefatos na imagem renderizada. Melhorar a eficiência da simulação e os efeitos relacionados à visualização será nosso trabalho futuro.


Jogando tijolos:

  1. A aplicação eficaz do NeRF na área de direção autônoma tem ótimos resultados.
  2. Essa modularidade é muito boa, você pode combinar livremente vários módulos pequenos e alternar facilmente os módulos e otimizá-los para diferentes cenários.
  3. Este trabalho combina as vantagens do NeRF na direção de renderização. Parece que existem poucas aplicações relevantes na direção de reconstrução do NeRF devido à eficiência e outras razões. Atualmente, o NeRF pode ter mais vantagens na reconstrução ou pós-processamento (como a reconstrução cenas de rua?).

Acho que você gosta

Origin blog.csdn.net/m0_50910915/article/details/132099274
Recomendado
Clasificación