DQN (Deep Red Q) Introducción

1. Introducción

Profundo Red Q pertenecen a aprendizaje por refuerzo. Este artículo es "con Deep aprendizaje por refuerzo jugar Atari" Resumen traducido del.

Este modelo incluye una red neuronal de convolución, Q-aprendizaje. Introduzca un mapa de píxeles, el valor de salida es una función de la evaluación de los ingresos futuros. Utilizando un método de descenso de gradiente estocástico.

Desde la perspectiva de considerar la profundidad del aprendizaje, el aprendizaje por refuerzo se enfrenta a tres retos, se necesita mucho entrenamiento datos de identificación manuales; la segunda es más profundo estudio asume que la muestra de datos es la independencia, y el aprendizaje por refuerzo se enfrenta a un estado de procesamiento alta correlación ; estudio a fondo fijo supone que la distribución de los datos, los datos y la mejora del aprendizaje en el algoritmo de distribución para aprender nuevos comportamientos cambiarán.

Este modelo intenta solucionar estos problemas. Convolución puede hacer un montón de redes neuronales artificiales para identificar los datos de entrenamiento. Para reducir el problema de los datos relativos a la distribución e insatisfactorio, utilice un mecanismo para repetir la experiencia, se tomaron muestras al azar de la conversión anterior, por lo que en base a una serie de comportamiento en el pasado para suavizar la distribución de la formación.

2. Algoritmos

Aquí Insertar imagen Descripción

3. Efecto

En la fuga juego, enduro, pong, este modelo es mejor que los seres humanos, en el rendimiento del juego piloto haz de seres humanos que se acercan. Pero en el Q * bert, Seaquest, invasores del espacio juego, mucho menos de lo humano, principalmente porque estos juegos requieren la red para encontrar una estrategia que se puede extender mucho tiempo.
Aquí Insertar imagen Descripción
HNeat Mejor se refiere al uso del algoritmo de detección de objetos está diseñado para la mano, y la salida de la posición en la pantalla Atari categoría objeto.

4. Otros TD-Gammon

En este trabajo se encontró que el TD-Gammon sólo se realiza mejor en el backgammon (chaquete), pero no en otros juegos, tal vez debido a la aleatoriedad del elenco dados para ayudar a explorar el espacio de estados, de modo que la función de coste es particularmente suave.

diferencia de tiempo (TD) es un método de aprendizaje de máquina basados ​​en la predicción de aprendizaje. Se utiliza principalmente para los problemas de aprendizaje de refuerzo, conocido como "el pensamiento del Monte Carlo ideas y programación dinámica (DP)." TD es similar al método de Monte Carlo, ya que es aprender algunas estrategias sobre el medio ambiente mediante el muestreo, se asocia con la técnica de programación dinámica, ya que la estimación aproximada de la estimación del estado actual, basado en el aprendizaje previo (proceso de la ley de autoayuda). Tiempo algoritmos de aprendizaje modelo de diferencias TD y aprender sobre los animales.

En 1992, Gerald Tesauro escribió TD-Gammon, el programa utiliza redes neuronales artificiales como modelo, y el uso de la formación algoritmo TD-lambda. A través de una gran cantidad de auto-juego, TD-Gammon alcanzó el nivel superior de la humanidad, y es no se trata de los jugadores humanos forma de participar en la formación, lo que hace diferente manera del TD-Gammon de los jugadores de ajedrez humanos. TD-Gammon mentiras de significación no sólo en el uso del entrenamiento de aprendizaje por refuerzo, se demuestra que el proyecto no requiere ninguna de las características, fácil de ubicación uso como un pedazo de entrada de la red neuronal también puede ser entrenado para llegar a los niveles superiores del agente de jugador humano

Aquí Insertar imagen Descripción

Publicado 21 artículos originales · alabanza ganado 18 · vistas 1449

Supongo que te gusta

Origin blog.csdn.net/zephyr_wang/article/details/105020325
Recomendado
Clasificación