Interpretación del artículo | Selección de la pose del efector final activo para el reconocimiento táctil de objetivos basado en la búsqueda del árbol de Monte Carlo

Original | Robot Wen BFT

Este artículo presenta un enfoque novedoso para el reconocimiento activo de objetos usando solo el tacto. El algoritmo utiliza una búsqueda de árbol de Monte Carlo para seleccionar la mejor secuencia de poses de muñeca para el reconocimiento de objetos.

Específicamente, el algoritmo modela el problema como un proceso de decisión de Markov (MDP) y optimiza la política a través de observaciones y acciones. La idea central del algoritmo es que las características táctiles continuas están asociadas con el movimiento entre robots. Las características locales no son únicas y se repetirán en sitios simétricos y curvaturas similares.

Discretizarlos en objetos crea características comunes que se pueden modelar como distribuciones de probabilidad que se pueden modelar condicionadas a observaciones y acciones independientes de la gran dimensionalidad del espacio de estado. Los resultados experimentales en motores de física y robots reales muestran que el algoritmo puede lograr un reconocimiento de objetos eficiente en diferentes entornos.

Figura 1 Izquierda: Configuración experimental. Derecha: una pose seleccionada adaptativamente

01  ¿Cómo selecciona el algoritmo la mejor secuencia de poses para el reconocimiento de objetos?

El algoritmo utiliza una búsqueda de árbol de Monte Carlo para seleccionar la mejor secuencia de poses de muñeca para el reconocimiento de objetos. Específicamente, el algoritmo modela el problema como un proceso de decisión de Markov (MDP) y optimiza la política a través de observaciones y acciones. La idea central del algoritmo es que las características táctiles continuas están asociadas con el movimiento entre robots.

Las características locales no son únicas y se repetirán en sitios simétricos y curvaturas similares. Discretizarlos en objetos crea características comunes que se pueden modelar como distribuciones de probabilidad que se pueden modelar condicionadas a observaciones y acciones independientes de la gran dimensionalidad del espacio de estado.

02  ¿Cuáles son las ventajas de utilizar la detección táctil para el reconocimiento de objetos?

En comparación con el reconocimiento basado en la visión, la ventaja de usar la detección táctil para el reconocimiento de objetos es que los sensores táctiles pueden realizar el reconocimiento de objetos en algunos entornos visualmente poco confiables, como en entornos oscuros, polvorientos, llenos de humo u oscuros bajo el agua, objetos transparentes y reflectantes, espaldas cubiertas. y objetos en bolsas, etc.

Además, los sensores táctiles pueden proporcionar una percepción externa física directa que la visión no puede. En los animales, la acción física se combina naturalmente con la percepción, y utilizan una variedad de órganos activos de percepción táctil. Los humanos pueden restaurar la forma solo con el tacto. Si bien algunas deficiencias de la detección táctil pueden compensarse con un mejor hardware, otras pueden compensarse con una planificación eficiente y utilizando entradas limitadas.

03  Principio de tesis

En la sección FORMULACIÓN DEL PROBLEMA, el documento establece sus objetivos y una descripción formal del problema. Específicamente, su objetivo es seleccionar la secuencia más pequeña de poses de muñeca para el reconocimiento de objetos utilizando solo información táctil.

Utilizaron un descriptor de objeto táctil existente para el reconocimiento y discretizaron los triángulos observados en un histograma 3D. Modelan el problema como un proceso de decisión de Markov (MDP) y optimizan la política a través de observaciones y acciones. También introducen el concepto de distribuciones de probabilidad que se pueden modelar condicionadas a observaciones y acciones independientes de las grandes dimensiones del espacio de estado.

Finalmente, introducen su modelo probabilístico activo, que puede elegir la mejor acción entre dos observaciones consecutivas.

A. Descriptores

En el artículo, los autores utilizan un descriptor de objeto táctil existente para el reconocimiento, que se basa en triángulos. Después de observar los triángulos, discretizaron los triángulos en un histograma 3D. Específicamente, tomaron los tres parámetros de un triángulo (es decir, dos lados y un ángulo) como tres dimensiones y los dividieron en un cierto número de intervalos respectivamente.

Luego asignaron cada triángulo observado a una celda en el histograma y combinaron todos los triángulos observados en un histograma 3D. Este histograma 3D es el descriptor que utilizan para el reconocimiento de objetos. En experimentos posteriores, usaron este descriptor para entrenar un clasificador y usarlo para el reconocimiento de objetos. 

B. Toma de decisiones de Markov

En el artículo, los autores modelan el problema como un proceso de decisión de Markov (MDP) y optimizan la política a través de observaciones y acciones. Específicamente, utilizaron un MDP de período de tiempo finito donde el espacio de estado X, el espacio de acción A, la función de transición T y la función de recompensa son todos finitos. En cada paso de tiempo t, el robot observa un estado y elige una acción. Luego, el robot pasa de un estado a otro de acuerdo con la función de transición T y es recompensado. El objetivo del robot es maximizar la suma de las recompensas esperadas, es decir, maximizar la recompensa acumulada descontada:

En cada paso de tiempo t, el algoritmo MCTS usa una red de políticas para predecir la probabilidad de cada acción y usa la simulación Monte Carlo para evaluar el valor de cada acción. Luego selecciona la acción con el valor más alto y la agrega a la secuencia de acciones. En última instancia, el algoritmo MCTS devuelve la secuencia óptima de acciones que ejecuta el robot para lograr el reconocimiento de objetos.

C. Modelo de probabilidad

En el artículo, los autores proponen dos modelos probabilísticos: una distribución de probabilidad para modelar la relación entre observaciones y acciones, y un modelo probabilístico activo para seleccionar la mejor acción entre dos observaciones consecutivas. La diferencia entre estos dos modelos radica en sus diferentes escenarios de aplicación y propósitos.

Los modelos de distribución de probabilidad se utilizan para modelar la relación entre las observaciones y las acciones, de modo que un robot pueda predecir la distribución de probabilidad de la siguiente observación en función de las observaciones y las acciones. Este modelo está basado en histogramas, que asigna cada estado y observación a una celda de histograma y combina todos los estados y observaciones observados en un histograma. El propósito de este modelo es ayudar al robot a comprender mejor el entorno y elegir la mejor secuencia de acciones en función de las observaciones y acciones para el reconocimiento de objetos.

Se utiliza un modelo probabilístico activo para elegir la mejor acción entre dos observaciones consecutivas para que el robot pueda reconocer objetos más rápidamente. Este modelo también se basa en histogramas, asigna cada estado y observación a una celda de histograma y combina todos los estados y observaciones observados en un histograma.

Luego, el robot usa este modelo para calcular una distribución de probabilidad conjunta para elegir la mejor acción. El propósito de este modelo es ayudar al robot a reconocer objetos más rápido y elegir la mejor secuencia de acción en un tiempo limitado.

Por lo tanto, los escenarios de aplicación y los propósitos de estos dos modelos son diferentes, pero ambos son modelos de probabilidad basados ​​en histogramas.

Figura 2 Un pequeño árbol de ejemplo. La parte resaltada indica la ruta de recompensa máxima. Las etiquetas de los nodos son el nombre de la observación, la distancia del vecino más cercano, la profundidad del árbol t y la cantidad de elementos en el histograma. La distancia NN es inversamente proporcional a . Las etiquetas de borde son nombres de acciones y recompensas en +1.

D. Efecto experimental

1. En el simulador, los autores comparan su método con estrategias estocásticas y codiciosas. Los resultados mostraron que su método funcionó mejor en el reconocimiento de objetos y reconoció objetos más rápido que otros métodos.

2. En robots reales, los autores comparan su método con la estrategia codiciosa. Los resultados muestran que su método funciona mejor en el reconocimiento de objetos y reconoce objetos más rápido que la estrategia codiciosa.

3. En el simulador, los autores comparan su método con otros métodos de reconocimiento de objetos basados ​​en la visión. Los resultados mostraron que su método funcionó mejor en el reconocimiento de objetos y reconoció objetos más rápido que otros métodos.

4. En robots reales, los autores comparan su método con otros métodos de reconocimiento de objetos basados ​​en la visión. Los resultados mostraron que su método funcionó mejor en el reconocimiento de objetos y reconoció objetos más rápido que otros métodos.

En resumen, el método de los autores logra buenos resultados tanto en simuladores como en robots reales, y funciona mejor en el reconocimiento de objetos. Estos resultados experimentales muestran que el método propuesto por los autores es efectivo y puede ser utilizado en aplicaciones prácticas.

Figura 3. Acciones de robots reales seleccionadas por la política del árbol en el momento de la prueba.

Figura 4 Efecto de tesis

论文资料:[1]Zhang,MM,Atanasov,et al.Active End-Effector Pose Selection for Touche Object Recognition through Monte Carlo Tree Search[J].IEEE INT C INT ROBOT, 2017.

Para obtener contenido más emocionante, preste atención a la cuenta oficial: BFT Robot

Este artículo es un artículo original y los derechos de autor pertenecen a BFT Robot. Si necesita reimprimir, contáctenos. Si tiene alguna pregunta sobre el contenido de este artículo, contáctenos y le responderemos a la brevedad. 

Supongo que te gusta

Origin blog.csdn.net/Hinyeung2021/article/details/131210122
Recomendado
Clasificación