A3C profundidad de la red de aprendizaje por refuerzo - teoría y el código (el coche hasta la colina)

A3C

  Desde DQN proceso de aprendizaje requiere poderosa potencia de cálculo y una gran parte del proceso de formación. Con este fin, el equipo de DeeoMind propuso un nuevo algoritmo, llamado asíncrono actores ventaja crítico (A3C) algoritmo que es superior a otras profundidades refuerzo algoritmo de aprendizaje, ya que requiere menos tiempo de cálculo de potencia y la formación. A3C idea principal es integrar la totalidad de su aprendizaje y experiencia en paralelo a través de agentes múltiples.

  A3C red también puede resultar en una mayor precisión con otros algoritmos, comportamiento continuos y discretos en el espacio son muy buenos resultados. La red es el uso de la inteligencia múltiple, y cada agente en el ambiente de aprendizaje real para copiar en paralelo para explorar diferentes estrategias. Entonces, la experiencia de estos agentes obtenido en conjunto constituyen un agente global. agente global también conocida como la red primaria o de la red global, mientras que el otro agente llamado trabajadores.


actores ventaja asíncronos

  Antes de continuar, analizar primero lo que es A3C? De los cuales tres A ¿Cuál es el significado?

   En A3C, la primera A es asíncrona, muestra cómo funciona. No sólo como agente de DQN para aprender la estrategia óptima en este interactúan agente más que con el medio ambiente. Debido a que hay múltiples interactúan agente con el medio ambiente, el medio ambiente y por lo tanto necesitan para proporcionar una copia de cada agente, de modo que cada agente puede copiar su interactúan respectivo entorno. De este modo, la pluralidad de agente inteligente es referido trabajadores, y no es un agente independiente llamada la red global, y todos son para informar al agente. Esta red global integrará la experiencia.

   Una segunda ventaja se refiere a cuando se habla de DQN contra arquitectura de red tiene que conocer cuál es la función ventaja. Ventajas función Q se puede definir como una función de la diferencia entre el valor de la función. La función Q es conocida para determinar qué tan bien el comportamiento de un determinado estado, el valor de cuya función es determinar qué tan bien el estado. Así que, intuitivamente lo consideran función de diferencia Q y el valor de la función significa? De hecho, se muestra que en comparación con todos los otros actores, lo bien que el agente realiza la acción a en el estado s.

  

Supongo que te gusta

Origin blog.csdn.net/weixin_43283397/article/details/105120623
Recomendado
Clasificación