DeepMind lanza DreamerV3, un algoritmo general para el aprendizaje por refuerzo

Descripción general del contenido: el aprendizaje por refuerzo es un producto transversal de campos multidisciplinarios y su esencia es realizar la toma de decisiones automática y la toma de decisiones continua. Este artículo presentará las últimas investigaciones y desarrollo de DeepMind: DreamerV3, un algoritmo general que amplía el alcance de las aplicaciones de aprendizaje por refuerzo.

Palabras clave: Algoritmo general de aprendizaje por refuerzo DeepMind

Este artículo se publicó por primera vez desde la cuenta pública de WeChat: HyperAI supernervio

El 12 de enero, hora de Beijing, el tweet oficial de DeepMind en Twitter anunció oficialmente DreamerV3, que es el primer algoritmo de propósito general que puede recolectar diamantes desde cero sin hacer referencia a datos humanos en el juego "Minecraft", otro desafío importante en el campo de la IA.

DeepMind anunció oficialmente DreamerV3 en Twitter

El aprendizaje por refuerzo se expande a problemas y el desarrollo requiere algoritmos generales

El aprendizaje por refuerzo permite a las computadoras resolver una tarea a través de la interacción, como AlphaGo venciendo a los humanos en el juego Go y OpenAI Five venciendo a jugadores humanos aficionados en Dota 2.

OpenAI Five derrotó a jugadores humanos en el juego. El equipo de I+D tomó una foto con jugadores humanos.

Sin embargo, aplicar algoritmos a nuevos escenarios de aplicación, como pasar de juegos de mesa a videojuegos o tareas robóticas, requiere que los ingenieros desarrollen continuamente algoritmos especializados, como control continuo, recompensas escasas, entradas de imágenes y entornos espaciales en espera.

Esto requiere mucha experiencia y recursos informáticos para ajustar el algoritmo, lo que dificulta en gran medida la expansión del modelo. La creación de un algoritmo de propósito general que pueda aprender a dominar nuevos dominios sin necesidad de realizar ajustes se ha convertido en una forma importante de ampliar el rango de aplicación del aprendizaje por refuerzo y resolver problemas de toma de decisiones.

Como resultado, nació DreamerV3, desarrollado conjuntamente por DeepMind y la Universidad de Toronto.

DreamerV3: un algoritmo general basado en el modelo mundial

DreamerV3 es un algoritmo general y escalable basado en el modelo mundial, que se puede aplicar a una amplia gama de dominios bajo la premisa de hiperparámetros fijos, lo cual es mejor que los algoritmos especializados.

Estos dominios incluyen acciones continuas y discretas, entradas visuales y de baja dimensión, mundos 2D y 3D, diferentes presupuestos de datos, frecuencias de recompensa y escalas de recompensa, etc.

Comparación de rendimiento entre el algoritmo general y el algoritmo especial de DreamerV3

DreamerV3 consta de 3 redes neuronales entrenadas simultáneamente a partir de experiencias repetidas sin compartir gradientes:

1. Modelo mundial: predecir los resultados futuros de posibles acciones

2. crítico: juzgar el valor de cada situación

3. Actores: aprende a hacer posibles situaciones valiosas

El proceso de formación de DreamerV3

Como se muestra en la figura anterior, el modelo mundial codifica la entrada sensorial en una representación discreta zt. zt se predice mediante un modelo de secuencia con estado recurrente ht, y se da la acción at. La entrada se reconstruye en una señal de aprendizaje y luego en una representación de forma.

El actor y el crítico aprenden de la trayectoria de representación abstracta predicha por el modelo mundial.

Para adaptarse mejor a las tareas entre dominios, estos componentes deben adaptarse a diferentes magnitudes de señales y equilibrar sólidamente los términos entre sus objetivos.

Los ingenieros probaron DreamerV3 en tareas con más de 150 parámetros fijos y lo compararon con los mejores métodos registrados en la literatura. Los experimentos muestran que DreamerV3 tiene una alta versatilidad y escalabilidad para tareas en diferentes dominios.

​Resumen del punto de referencia 

Todos los agentes están capacitados en la GPU NVIDIA V100

DreamerV3 logró excelentes resultados en 7 benchmarks y estableció un nuevo nivel SOTA en control continuo de estado e imagen, BSuite y Crafter.

Sin embargo, DreamerV3 todavía tiene ciertas limitaciones: por ejemplo, cuando los pasos del entorno están dentro de los 100 millones, el algoritmo no puede recoger diamantes en todas las escenas como los jugadores humanos, pero ocasionalmente los recoge.

documento completo

A hombros de gigantes, repasa la historia de la familia Dreamer

Primera generación: Soñador

Publicado: diciembre de 2019

Instituciones participantes: Universidad de Toronto, DeepMind, Google Brain

Dirección del artículo : https://arxiv.org/pdf/1912.01603.pdf

Introducción al algoritmo:

Dreamer es un agente de aprendizaje por refuerzo que puede resolver tareas de largo plazo a partir de imágenes sólo mediante la imaginación latente.

Utiliza el modelo mundial para lograr un aprendizaje conductual eficiente basado en la retropropagación de las predicciones del modelo. En 20 tareas de control visual extremadamente desafiantes, Dreamer superó a los métodos convencionales en términos de eficiencia de datos, tiempo de cálculo y rendimiento final.

Comparación de rendimiento entre Dreamer y los métodos convencionales en ese momento

Dreamer hereda la eficiencia de los datos de PlaNet y al mismo tiempo supera el rendimiento asintótico de los mejores agentes sin modelos del momento. Después de 5 × 106 pasos del entorno, el rendimiento promedio de Dreamer en cada tarea alcanzó 823, mientras que PlaNet fue solo 332 y el agente D4PG sin modelo más alto fue 786 después de 108 pasos.

Segunda generación: Dreamer V2

Publicado: octubre de 2020

Instituciones participantes: Google Research, DeepMind, Universidad de Toronto

Dirección del artículo : https://arxiv.org/pdf/2010.02193.pdf

Introducción al algoritmo:

DreamerV2 es un agente de aprendizaje por refuerzo que aprende el comportamiento a partir de predicciones en un espacio latente compacto de modelo mundial.

Nota: El modelo mundial utiliza representaciones discretas y se entrena por separado de la política.

DreamerV2 es el primer agente que logra un rendimiento a nivel humano en las 55 tareas del punto de referencia de Atari mediante el aprendizaje de comportamientos en un modelo mundial entrenado por separado. Con el mismo presupuesto informático y tiempo de reloj de pared, DreamerV2 alcanza los 200 millones de fotogramas, superando el rendimiento final de los principales agentes de GPU única IQN y Rainbow.

Además, DreamerV2 también es adecuado para tareas con acciones continuas: aprende un modelo mundial complejo de robots humanoides y resuelve problemas de pararse y caminar solo mediante la entrada de píxeles.

​La puntuación media regularizada de un jugador en los 55 juegos de referencia de Atari

Los internautas de Twitter toman la iniciativa al reproducir memes en el área de comentarios.

Con respecto al nacimiento de DreamerV3, muchos internautas también sacudieron su ingenio en el área de mensajes de Twitter de DeepMind.

Libera a los seres humanos, ya no es necesario jugar "Minecraft".

¡Deja de ser condescendiente con el juego y haz algo serio! @DeepMind y el director ejecutivo Demis Hassabis

"My World" Ultimate Boss Ender Dragon está temblando.

En los últimos años, el juego "Minecraft" se ha convertido en un foco de investigación sobre el aprendizaje por refuerzo, y varias veces se han celebrado concursos internacionales sobre la recolección de diamantes en "Minecraft".

Resolver este desafío sin datos humanos se considera ampliamente un hito en la inteligencia artificial debido a las escasas recompensas, la dificultad de exploración y los largos períodos de tiempo en este entorno de mundo abierto generado procedimentalmente. Existen obstáculos tales que los métodos anteriores deben basarse en datos humanos. o tutoriales.

DreamerV3 es el primer algoritmo que aprende completamente a recolectar diamantes en "Minecraft" desde 0. Amplía aún más el rango de aplicación del aprendizaje por refuerzo. Como dijeron los internautas, DreamerV3 ya es un algoritmo maduro de propósito general. Cuelgue y actualice para luchar contra monstruos. ¡Y alíate con el jefe definitivo, el Ender Dragon!

Siga HyperAI para aprender más algoritmos y aplicaciones de IA interesantes; también hay tutoriales que se actualizan periódicamente, ¡aprendamos y progresemos juntos!

Supongo que te gusta

Origin blog.csdn.net/HyperAI/article/details/128671374
Recomendado
Clasificación