Interpretación de la información de XNet en la arquitectura de percepción de nueva generación de Xpeng Motors

Grupo de comunicación|  Ingrese "Grupo de sensores/Grupo de chasis de monopatín/Grupo de software básico de automóvil/Grupo de controlador de dominio", escanee el código QR al final del artículo , agregue el Asistente de Jiuzhang , asegúrese de anotar el nombre del grupo de intercambio + real nombre + empresa + puesto (sin comentarios No se puede pasar la verificación de amigo) 


a743129ba6e181eda84e800e4f79dba3.png

Autor | Zhang Mengyu

En la conferencia CVPR que acaba de pasar, como el único fabricante de automóviles nuevos en China que fue invitado a dar un discurso, Xiaopeng Motors presentó a los participantes la experiencia de Xiaopeng Motors en la producción en masa de sistemas de conducción asistida en China.

Como la última generación de arquitectura de percepción de Xpeng Motors, el papel de XNet en la producción en masa no puede subestimarse.

El autor tuvo el honor de entrevistar a Patrick, el ingeniero jefe de percepción de Xpeng Autopilot Center, para obtener más información sobre el rendimiento y la arquitectura de XNet, así como sobre los esfuerzos realizados por el equipo autónomo de Xpeng para construir XNet.

1. Mejora del rendimiento lograda por XNet

XNet realiza la actualización de la estructura de percepción y tiene un mejor rendimiento, incluyendo principalmente tres aspectos.

1.1

Súper capacidad de percepción ambiental, generación en tiempo real de "mapa de alta precisión"

a7af391e36e004deb310bfa012e81896.png 

XNet puede construir un "mapa de alta precisión" en tiempo real basado en el entorno circundante. En la imagen de arriba, podemos ver que el vehículo está pasando por una rotonda. Las líneas de los carriles que se muestran en la imagen no son del mapa de alta precisión, sino de la salida de percepción de XNet. XNet no solo puede generar líneas de carril, sino también líneas de parada, aceras, áreas transitables, etc. Esta es una de las capacidades centrales de Xiaopeng Motors en el futuro para lidiar con escenarios no mapeados y hacer conducción asistida urbana de alto nivel.

1.2

Percepción de 360 ​​grados más fuerte, juego más fuerte, mayor tasa de éxito en el cambio de carril

En la generación anterior de arquitectura de percepción, el problema de los puntos ciegos es difícil de resolver. En los lugares más cercanos al propio vehículo, especialmente en el límite inferior del vehículo, el efecto de detección del sistema de percepción a menudo no es bueno. XNet adopta un esquema de percepción de fusión frontal, multicámara y multicámara, que puede inferir la información de posición 3D del vehículo bajo la perspectiva BEV basada en la información del cuerpo en la imagen, lo que resuelve el problema de limitación superior e inferior. campo de visión de la cámara; también puede fusionar de manera más efectiva múltiples cámaras al mismo tiempo información, especialmente los objetos en el campo de visión de las dos cámaras, para evitar la percepción de objetos de personas ciegas.

Además, después de ingresar un flujo de video que contiene información de tiempo, la capacidad de XNet para reconocer objetos cerca del automóvil ha mejorado mucho y puede detectar objetos cerca del automóvil de manera más estable. Entonces, la capacidad de juego del sistema de conducción automática será más fuerte y la tasa de éxito del cambio de carril del automóvil será mayor.

1.3

Reconocimiento más preciso de la velocidad y la intención de los objetos dinámicos, mejorando en gran medida la capacidad de juego; percepción de movimiento redundante, mayor seguridad en escenas urbanas

XNet no solo puede detectar la posición del objeto, sino también la velocidad del objeto e incluso completar la predicción de la trayectoria futura del objeto. Por lo general, es difícil para el radar mmWave detectar la velocidad de los vehículos que cruzan el carril frente al vehículo, pero XNet puede detectar fácilmente esta velocidad, lo que tiene un efecto de mejora significativo en el radar mmWave. En escenas en las que el radar de ondas milimétricas es bueno, XNet también puede proporcionar redundancia, mejorando así la seguridad general de las escenas urbanas.

2. La arquitectura de XNet

¿Por qué XNet puede lograr un mejor rendimiento? Patrick presentó la arquitectura y el flujo de trabajo específicos de XNet.

XNet adopta el método de varias cámaras y varios cuadros, inyecta directamente el flujo de video de cada cámara en una red de aprendizaje profundo de un modelo grande, realiza una prefusión de series temporales de varios cuadros y genera información 4D de objetivos dinámicos bajo el BEV perspectiva (como tamaño, distancia, posición y velocidad, predicción de comportamiento, etc. de vehículos, vehículos de dos ruedas, etc.) e información 3D de objetos estáticos (como líneas de carril y la posición del borde de la carretera) .

Como se muestra abajo.

78199397042d09dd6bc0522c57e43335.png

Cada imagen de entrada de la cámara pasa a través de la red troncal (backbone) y el cuello de la red (cuello, específicamente la red BiFPN) para generar un mapa de características de varias escalas del espacio de la imagen.

Después de que estos mapas de características pasen por la parte más crítica de XNet: el transformador de vista BEV (transformador de vista BEV), forman un mapa de características de un solo cuadro bajo BEV.

Los mapas de características de un solo cuadro en diferentes momentos se fusionan en el tiempo y el espacio de acuerdo con la pose del vehículo del ego bajo la perspectiva BEV para formar un mapa de características de espacio-tiempo bajo BEV.

Estos mapas de características espacio-temporales son la base del razonamiento de decodificación de BEV. Dos decodificadores se conectan después del mapa de características espacio-temporales para completar la decodificación y la salida de los resultados de XNet dinámico y XNet estático. Los resultados dinámicos incluyen pose, tamaño, velocidad, etc., y los resultados estáticos incluyen límite, línea de marca, etc.

En este punto, la parte de la percepción está básicamente completada.

3. Los esfuerzos del equipo para construir XNet

No es fácil realizar la arquitectura anterior. En los cuatro aspectos de recolección, etiquetado, capacitación e implementación, el equipo autónomo de Xiaopeng ha trabajado mucho para optimizar todo el proceso.

3.1

recopilación

Los datos reales del vehículo y los datos de simulación son dos fuentes principales de datos.

Xiaopeng tiene casi 100.000 vehículos de usuarios, todos los cuales pueden usarse para completar tareas de recopilación de datos. Como se muestra en la figura a continuación, el modelo del lado del automóvil informará los problemas que el sistema de conducción automática no está manejando lo suficientemente bien. Para abordar estos problemas, el equipo de conducción autónoma de Xiaopeng establecerá los disparadores correspondientes en el lado del automóvil para recopilar los datos correspondientes. de manera dirigida. Luego, los datos se cargarán en la nube, se examinarán y etiquetarán para el entrenamiento del modelo y las posteriores actualizaciones de OTA.

9c7c273cd772d476790be591405ed6fa.png

Además, los datos de simulación también son una fuente importante de datos. Wu Xinzhou dio un ejemplo en el Día de la Ciencia y la Tecnología 1024: durante la conducción, un camión grande en el frente se incendió debido a la fricción entre los neumáticos y el suelo. Esta situación es extremadamente rara en la vida real. Para tal situación con una frecuencia extremadamente baja, es muy difícil recolectar autos reales, incluso si Xiaopeng ya tiene casi 100,000 autos producidos en masa, puede llevar varios años recopilar suficientes datos.

Para tal situación, los datos de simulación pueden desempeñar un papel auxiliar muy bueno. Como se muestra en la figura a continuación, el equipo de conducción autónoma de Xiaopeng puede usar el motor unreal5 para generar miles de casos similares basados ​​en datos reales del vehículo, simulando varias situaciones en las que las ruedas se caen.

de85c64aae741fb775d16b353e6e0ef0.png

Por supuesto, no se puede abusar de los datos de simulación y deben estar lo más cerca posible de la realidad. El equipo de conducción autónoma de Xiaopeng trata principalmente de garantizar la autenticidad de los datos de simulación desde dos aspectos: la realidad de la luz y la sombra y la realidad de la escena.

El equipo de conducción autónoma de Xiaopeng utiliza el unreal5 tecnológicamente avanzado como motor de renderizado, de modo que las imágenes generadas a través de la simulación se vean más realistas, sin una sensación de dibujos animados, lo que garantiza "luz y sombra reales".

Además, al generar datos de simulación, primero encontramos las escenas débiles del modelo y luego creamos gemelos digitales de estas escenas y luego hacemos modificaciones direccionales sobre esta base. Específicamente, el etiquetado automático 4D se puede usar para extraer información estructurada 4D de la escena real, incluidas trayectorias 4D de objetos dinámicos y diseños 3D de escenas estáticas, etc., y luego usar el motor de renderizado para renderizar y completar la información estructurada para formar un imagen de simulación. De esta manera, la escena generada está simulando la escena que puede ocurrir en el mundo real, asegurando la "escena real".

3.2

etiqueta

Para entrenar XNet, se necesitan de 500 000 a 1 millón de videos cortos, y la cantidad de objetivos dinámicos puede ser de cientos de millones o incluso miles de millones. Según la eficiencia actual del etiquetado manual, un equipo de 1000 personas necesita dos años para completar el etiquetado de los datos necesarios para la formación de XNet.

Xiaopeng Motors ha creado un sistema de etiquetado totalmente automático. La eficiencia de etiquetado de este sistema es casi 45.000 veces mayor que la del trabajo manual. El sistema de etiquetado totalmente automático puede completar el trabajo de etiquetado en solo 16,7 días. Además, el sistema de etiquetado totalmente automático tiene información más completa y de mayor calidad (incluida la posición 3D, el tamaño, la velocidad, la trayectoria, etc.) y una mayor producción (producción diaria máxima de 30 000 clips, equivalente a 15 conjuntos de datos NuScene). 

¿Cómo logra una alta eficiencia el sistema de etiquetado completamente automático?

En primer lugar, del etiquetado manual al etiquetado automático, el papel de los humanos ha cambiado mucho. En el escenario del etiquetado manual, las personas son los etiquetadores; en el escenario del etiquetado automático, las personas son los inspectores de calidad, quienes solo identifican y corrigen el desempeño deficiente del sistema de etiquetado automático, y la eficiencia humana mejorará en órdenes de magnitud.

En segundo lugar, en el escenario de etiquetado automático, los datos de entrenamiento que representan la mayoría del conjunto de datos se verifican automáticamente, y solo el conjunto de datos de evaluación se verifica manualmente, y la cantidad de datos que requieren operación manual se reduce en órdenes de magnitud.

Finalmente, el etiquetado automático desplaza el cuello de botella de la producción de los recursos humanos a los recursos informáticos. En la nube, los recursos informáticos se pueden expandir fácilmente y una gran cantidad de recursos se pueden implementar de manera flexible bajo demanda para la producción.

3.3

tren

Xiaopeng y Alibaba Cloud han cooperado para construir el centro informático de conducción autónoma más grande de China: "Fuyao", que tiene una potencia informática de hasta 600 PFLOPS, lo que equivale a una plataforma de formación compuesta por miles de Orins. Con la ayuda del poderoso poder de cómputo de Fuyao, el equipo autónomo de Xiaopeng adoptó un método de entrenamiento de múltiples máquinas a gran escala basado en la nube para acortar el tiempo de entrenamiento de XNet de 276 días a 11 horas, logrando una mejora de 602 veces en la eficiencia del entrenamiento. .

Como se muestra en la siguiente figura, si se utiliza un método de precisión total de una sola máquina, se necesitan 276 días para entrenar toda la XNet. El equipo de autoconducción de Xiaopeng acortó el tiempo de capacitación de una sola máquina de 276 días a 32 días al optimizar el esquema de capacitación para reducir las épocas, optimizar la estructura de la red y los operadores, y personalizar la capacitación de precisión mixta para Transformer. Luego, el equipo aprovechó al máximo el poder de la computación en la nube para cambiar el entrenamiento de una sola máquina a un entrenamiento paralelo de 80 máquinas, acortando el tiempo de entrenamiento de 32 días a 11 horas.

da5b0d2dac16205fd420c9760771be54.png

Además, el equipo presentó el modelo Golden Backbone para desvincular la mejora de las capacidades básicas de la red del lanzamiento del modelo, mejorando así la eficiencia de la capacitación. Específicamente, como se muestra en la figura a continuación, Golden Backbone puede formar un circuito cerrado con minería de datos, etiquetado automático y plataformas de supercomputación autónomas. En este anillo, siempre que haya una entrada de datos continua, las capacidades de Golden Backbone se pueden optimizar continuamente. Cuando necesite liberar el modelo, solo necesita hacer algunas optimizaciones sobre la base de Golden Backbone, en lugar de entrenar desde cero.

fcb9cbe1b8fdd7c96e6910a4eac37789.png

3.4

desplegar

A nivel de implementación, el equipo de conducción autónoma de Xiaopeng ha acumulado mucho. Después de la optimización por parte del equipo, el tiempo de cálculo de Transformer se redujo al 5% del original. Además, el modelo que originalmente requería el 122 % de la potencia informática de Orin-X para ejecutarse, ahora puede funcionar con solo el 9 % de la potencia informática de Orin-X.

En términos de implementación, ¿cuáles son los aspectos más destacados del equipo de conducción autónoma de Xiaopeng? Según la introducción de Patrick, se divide principalmente en tres pasos.

"La primera es la reescritura de la capa de Transformers. Después de analizar el tiempo de ejecución de la placa modelo, descubrimos que la versión original de la capa de Transformers tomó mucho tiempo. Por lo tanto, probamos muchas variantes de métodos de construcción de Transformers y encontramos un modelo que funcionó bien. Ejecute la versión más rápida en el tablero".

"Luego está la poda de la columna vertebral de la red. Después de reescribir Transformers, descubrimos que la columna vertebral de la red (backbone) es nuestro cuello de botella de rendimiento. Así que podamos la columna vertebral de la red para reducir el tiempo de ejecución de la parte de la columna vertebral".

"Finalmente, es la programación cooperativa de hardware múltiple. En nuestra plataforma informática basada en Orin-X, hay tres tipos de unidades informáticas: GPU, DLA y CPU. Estos tres tipos de hardware admiten diferentes operadores de la red de diferentes maneras. . Colocamos los diferentes componentes de la red donde es más adecuado para su funcionamiento, y luego programamos uniformemente los tres tipos de hardware informático, de modo que los tres puedan cooperar para completar el razonamiento de la red".

FIN


El primer video de Jiuzhang Watch se lanza oficialmente

¡Bienvenidos todos a prestar atención, reenviar, dar me gusta y comentar! !

Grupo de comunicación|   Ingrese "Grupo de sensores/Grupo de chasis de monopatín/Grupo de software básico automotriz/Grupo de controlador de dominio", escanee el código QR a continuación, agregue el Asistente de Jiuzhang , asegúrese de anotar el nombre del grupo de intercambio + nombre real + empresa + posición (sin comentarios No se puede pasar la verificación de amigo) 

fd75ecbc1ef71b4181a7a7227647d187.png

escribir al final

comunicarse con el autor

Si desea comunicarse directamente con el autor del artículo, puede escanear directamente el código QR a la derecha y agregar el propio WeChat del autor.

   21f840210734f4c7c4ac9722442091a7.png

Nota: asegúrese de anotar su nombre real, empresa y posición actual al agregar WeChat, ¡gracias!

Acerca de la contribución

Si está interesado en contribuir a "Conducción inteligente de nueve capítulos" (artículos de tipo "acumulación y clasificación de conocimientos"), escanee el código QR a la derecha y agregue el WeChat del personal.

747242b5f3389d765833f59ddbb418ef.jpeg

Nota: asegúrese de anotar su nombre real, empresa y posición actual al agregar WeChat, ¡gracias!


Requisitos de calidad para manuscritos de "acumulación de conocimiento":

R: La densidad de la información es más alta que la mayoría de los informes de la mayoría de las casas de bolsa, y no más baja que el nivel promedio de "Conducción inteligente de nueve capítulos";

B: La información tiene que ser muy escasa, más del 80% de la información tiene que ser invisible en otros medios, si se basa en información pública tiene que tener un punto de vista especialmente potente y exclusivo. Gracias por su comprensión y apoyo.

Lectura recomendada:

Nueve capítulos: una colección de artículos en 2022

"Incluso si los salarios no se pueden pagar un día, algunas personas se quedarán". —— Revisión del segundo aniversario del negocio de Jiuzhang Zhijia (Parte 1)

"Su presupuesto es demasiado, por lo que no podemos cooperar" - Revisión del segundo aniversario de Jiuzhang Zhijia (Parte 2)

◆ ¿ Qué es la arquitectura eléctrica y electrónica integral basada en SOA?

Aplicación de algoritmo de aprendizaje profundo en regulación y control de conducción automática

Desafíos y comienzo del cambio de control de cables a producción en masa y uso comercial

◆ "Sé codicioso cuando otros tengan miedo", este fondo aumentará la inversión en el "Invierno de conducción automática"

Supongo que te gusta

Origin blog.csdn.net/jiuzhang_0402/article/details/131467688
Recomendado
Clasificación