Deje que los robots entiendan el "sentido común" humano, ¿pueden hacerlo los mapas semánticos 3D?

Los robots necesitan un mapa de nivel de niñera.

La imagen proviene de Internet.

A medida que la tecnología inteligente de los robots continúa iterando, ya no es suficiente percibir la información geométrica espacial del entorno para tareas como decisiones de comportamiento complejas e interacción humano-computadora. Es necesario que los robots comprendan los tipos de objetos en el entorno y su Localización, es decir, la información semántica del entorno. Tomando el robot de barrido de pisos como ejemplo, una tarea de limpiar la parte inferior de la mesa del comedor requiere que conozca la categoría y la ubicación del objetivo. Sin embargo, aunque los mapas de cuadrícula 2D tradicionales y los mapas topológicos actuales pueden describir las características geométricas de los obstáculos en el entorno y la información de su estructura ambiental, carecen de la lógica comercial de alto nivel para que los robots entiendan el entorno, humano-máquina/objeto- interacción de la máquina, etc. Información semántica. Por el contrario, los mapas semánticos 3D no solo contienen información estructural de objetos y entornos, sino también información de "sentido común", como categorías de objetos y atributos funcionales. Se puede decir que es un nivel de niñera mapa para robots.

Desde un punto de vista técnico, el modelo de mapa del mapa semántico 3D es una reconstrucción del entorno 3D para la escena real, incluida la información de la escena regional y los atributos de cada objeto independiente en la escena, el modelo 3D en el espacio, pose información , etc., para que el robot Comprenda la información ambiental a nivel semántico, imitando la forma en que el cerebro humano comprende el entorno, proporcionando así soporte de información para operaciones inteligentes de nivel superior.

¿Cómo construir un mapa semántico 3D?

Para construir un mapa semántico 3D, la premisa es extraer las características del objeto que necesita y realizar la segmentación semántica. INDEMIND adopta la ruta de la tecnología de visión estéreo para realizar la construcción del mapa semántico 3D, agrupa la información de la nube de puntos visuales 3D obtenida por el sensor de visión binocular y combina el aprendizaje profundo integrado y el algoritmo VSLAM en el borde para generar la semántica de objetos de individualidad y regional. semántica de escena para realizar la construcción de mapas semánticos en 3D.

En la escena real, ya sea una familia, una empresa o un supermercado, la mayoría tiene 3 o más escenas subdivididas, y la mayoría de estas escenas tienen similitudes.Cómo comprender de forma rápida y precisa la habitación cuando el robot recibe la tarea de especificar la habitación Los atributos funcionales de diferentes habitaciones, encontrar la habitación correspondiente y realizar operaciones personalizadas de acuerdo con los atributos funcionales de diferentes habitaciones también requieren una precisión extremadamente alta en la comprensión de la escena.

Por lo tanto, INDEMIND logra la comprensión de la escena basada en la fusión de la semántica de la escena regional de salida y la semántica del objeto individual. En primer lugar, el reconocimiento general de características se realiza de acuerdo con la información semántica de la escena regional adquirida; en segundo lugar, en función del reconocimiento semántico de objetos individuales, se reconoce una serie de información individual independiente en la escena y se utiliza como marcas características de la escena, y finalmente se juzga por superposición de dos fases, para lograr una comprensión precisa y estable de la escena.

En el desempeño real, los robots que usan mapas semánticos 3D, combinados con algoritmos INDEMIND VSLAM y motores de toma de decisiones inteligentes, tienen un excelente desempeño en reconocimiento de IA, evitación inteligente de obstáculos, comando de operaciones inteligentes e interacción hombre-máquina/objeto-máquina.

En términos de reconocimiento de IA y evitación de obstáculos, basado en mapas semánticos 3D, puede extraer rápidamente varias características de imagen en el entorno, combinado con aprendizaje profundo, puede identificar tridimensionalmente obstáculos individuales como peatones, animales, objetos fijos/en movimiento, y peligros como escaleras y escaleras mecánicas. La estabilidad y precisión de los efectos de identificación y evitación de obstáculos combinados con la información 3D de los objetos se han mejorado significativamente. Al mismo tiempo, al reconocer la información 3D de los obstáculos que coinciden con la pantalla, el robot también puede realizar operaciones refinadas similares a las acciones de evasión humana, lo que le permite evitar obstáculos de manera proactiva y estratégica.

Indicación de detección de obstáculos

En términos de interacción y operaciones inteligentes, el mapa semántico 3D realiza reconocimiento semántico y segmentación de objetos en individuos independientes e información de habitaciones en la escena.Después de que el robot comprenda el "sentido común" humano, puede realizar una lógica de interacción de alto nivel y cooperar con INDEMIND. Lenguaje natural autodesarrollado La tecnología interactiva puede ordenar a los robots que realicen varias lógicas de operación inteligente, como seguridad, búsqueda, seguimiento, búsqueda autónoma de caminos y limpieza direccional a través de instrucciones de voz, gestos y acción. Tomando como ejemplo la limpieza direccional, emitir un comando de voz: "Limpiar el dormitorio" puede reconocerse como una limpieza planificada para el área del dormitorio identificada en el mapa, diciendo adiós a la experiencia interactiva aproximada.

En la actualidad, la tecnología de mapas semánticos 3D se ha aplicado a la solución de navegación de robots domésticos "Household Robot AI Kit" de INDMEIND y a la solución de navegación de robots comerciales "Commercial Robot AI Kit". El rendimiento de mercado de ambas soluciones ha sido ampliamente reconocido por los clientes.

Vale la pena mencionar que, debido al uso de tecnología visual, las dos soluciones tienen ventajas obvias en términos de costo en comparación con los productos de la competencia. El "Kit de IA de robot doméstico" logra el mismo nivel de efectos técnicos, mientras que el costo es solo 1/3 de la solución de fusión de radar láser, y aunque la solución de fusión de visión láser también puede obtener información semántica en la escena, está limitada por sensores De hecho, solo se puede reconocer la información bidimensional de los objetos y no se pueden construir mapas semánticos 3D. En comparación con la solución lidar, el costo del "kit de IA de robot comercial" se ha reducido entre un 60 y un 80 %. se puede reducir a menos de 5.000 yuanes. , Reducir significativamente el costo de desarrollo y el ciclo del robot.

Supongo que te gusta

Origin blog.csdn.net/weixin_43922139/article/details/132227511
Recomendado
Clasificación