Recientemente, estaba estudiando el curso de "Aprendizaje intensivo" de Stanford para el semestre de otoño de 2017. Los estudiantes interesados pueden seguirlo: Sergey's God tiene subtítulos en inglés y un poco rápido.
Hoy, resumí principalmente un artículo sobre el control a nivel humano a través del aprendizaje de refuerzo profundo que vi en la mañana. Utilicé el entrenamiento de la red DQN en juegos Atari 2600. Los resultados del entrenamiento muestran que DQN puede converger a los juegos a nivel humano de manera más estable. Nivel

Prólogo

En la actualidad, el aprendizaje por refuerzo ha logrado pequeñas victorias en muchas situaciones complejas en la realidad, especialmente en los campos de espacio de estado de baja dimensión donde las características artificiales se pueden construir de forma manual y totalmente observable. Por supuesto, también encuentra muchas paredes en algunos escenarios de tareas: el agente debe aprender a reconocer y "percibir" las características del entorno externo a partir de la entrada "sensorial" de alta dimensión, y aprender y adaptarse de la experiencia pasada. Nuevo ambiente. Esta es una habilidad innata para humanos y animales, y está relacionada con la misteriosa combinación de nuestro sistema de nivel de percepción y el aprendizaje de refuerzo personal.

Resumen

Este artículo presenta una profunda Q-red (DQN), por medio de extremo a extremo (end-to-end) de aprendizaje por refuerzo directamente desde la entrada de alta dimensión, el aprendizaje de un muy excelente estrategia (política). La entrada es una imagen del juego en tiempo real (actual 状态S), la red neuronal convolucional se utiliza para capturar la correlación de las características locales y todas las posibles 动作Adistribuciones de probabilidad se emiten . El artículo presenta la repetición de experiencias.

Ideas

Función de valor de acción

En DQN, la red neuronal profunda se utiliza para ajustar la función de valor de acción , es decir, el rendimiento acumulativo del descuento:

Entre ellos πestá la estrategia a tomar, ses decir, tomar medidas de acuerdo con la estrategia cuando se observa el estado a.

proceso de aprendizaje por refuerzo es a menudo inestable y fácil de formación divergen (divergen), especialmente cuando el no lineal red neuronal función de aproximación Q . Existen principalmente las siguientes razones:

Durante el entrenamiento, existe una correlación entre las secuencias de observación de entrada (muestras). Por ejemplo, la última muestra de secuencia está al lado de la muestra anterior.
Una pequeña actualización de la función Q puede traer grandes fluctuaciones a la política (la distribución de la política es obviamente diferente antes y después de la actualización) y cambiar aún más la distribución de datos (la política afecta la siguiente selección de acción)
La correlación entre la función de valor de acción Q y el valor objetivo. El valor objetivo se define de la siguiente manera:

Experimenta la reproducción

El uso de la red profunda para adaptarse a la función Q no entrará en detalles aquí, consulte el diagrama de red a continuación para obtener más detalles. Los autores añadidos en el entrenamiento del modelo experiencia de reproducción (expericen Replay) , explican aquí sobre este concepto muy útil (knock pizarra ~ ~):

Durante el proceso de entrenamiento, se mantiene un conjunto de muestras de secuencia Dt = {e1, ...., et}, donde et = (st, at, rt, st + 1), et está en el estado st, tomando medidas en , Transfiera al estado st + 1, obtenga la recompensa rt, formando así una muestra (experiencia), el tamaño general del grupo de muestras es limitado (establecido en N)

El significado de la repetición es que durante el entrenamiento, como dejar que el agente juegue el juego, las muestras no se envían a la red en orden cronológico, pero antes del final del juego, las muestras generadas (experiencias) se actualizan y se tiran al grupo de experiencias. , Muestras promedio de minBatch del grupo como muestras de entrenamiento

De esta manera, a través de la reproducción, se pueden reducir los problemas de oscilación y divergencia del aprendizaje de refuerzo mencionados anteriormente debido a la correlación entre las muestras antes y después . También hay los siguientes beneficios:

Asegúrese de que cada muestra sea lo suficientemente probable para ser utilizada varias veces en la actualización de peso, mejorando la utilización de la muestra
Aprender directamente de muestras continuas causará problemas de choque, y el muestreo aleatorio del grupo de muestras puede alterar esta correlación.
La explicación visual es que cuando se deja la última acción realizada por el agente en la última muestra, en el muestreo, solo puede tomar muestras de la muestra con el estado de la izquierda, para garantizar que la distribución del entrenamiento sea más efectiva

Doble iteración de red Q

Porque cuando se acerca a la función Q, debido a que la función de valor objetivo está relacionada con la función Q correspondiente a la acción óptima en el siguiente estado, y la selección de la acción depende de la actualización de la estrategia π, las dos están relacionadas entre sí.
En DQN, utilizamos el ajuste de red Q(s, a; θ), donde θ es el parámetro de peso en la red, y la actualización iterativa de Q-learning utiliza la siguiente función de pérdida:

Entre ellos θiestá el parámetro Q-network θ-del i-ésimo paso ; es el valor objetivo del i-ésimo paso. El paso de θiactualización general Ces θ-solo el paso de actualización.

Detalles del algoritmo

Pretratamiento

La tesis se basa en datos de imagen de cuadros de video Atari 2600, 210 × 160 píxeles, 128 colores. Sin procesamiento, los requisitos de memoria computacional son demasiado altos.
Primero , tome el valor máximo de los dos cuadros antes y después de la imagen. Debido a que algunos píxeles parpadeantes solo aparecen en cuadros pares, no en cuadros impares.
Luego , extraiga el brillo de los datos RGB como el valor del canal Y, y escale la imagen a 84 × 84.
El autor finalmente usa la m（取值为4）帧imagen más adyacente para apilar ( pila) para generar la imagen de entrada final. (¿Apilamiento? ¿Promedio de m marcos adyacentes?)

Construir modelo

1. Ingrese

La entrada de red es una imagen preprocesada de 84 × 84 × 4

2. Capa convolucional y capa totalmente conectada

La entrada es el cuadro de video del juego, que pasa a través de 3 capas convolucionales, seguidas por 2 capas completamente conectadas, y finalmente emite la función de valor Q de todas las acciones tomadas en el estado actual (cuadro de video). El autor mencionó en el documento que este modelo hace la menor cantidad posible de suposiciones previas.

La primera capa de convolución-32 filtros de 8 × 8, tamaño de paso 4, Relu activado
La segunda capa de convolución-64 filtros de 4 × 4, tamaño de paso 2, activación Relu
La tercera capa de convolución-64 filtros de 3 × 3, tamaño de paso 1, activación Relu
Unidades de capa oculta de capa 512 completamente conectadas, Relu casi
Capa de salida relacionada con el número de acciones

Detalles de entrenamiento

El primer punto que debe mencionarse es que durante el proceso de capacitación, el autor recortó las recompensas. Las operaciones específicas son: clip de retorno positivo a 1, clip de retorno negativo a -1, 0 significa que no hay retorno.
¿Por qué recortar? (Signo de interrogación negro o (╯ □ ╰) o)

Tratar el valor de la recompensa de esta manera puede limitar la magnitud de la transmisión de errores y hacer que sea más fácil garantizar que se mantenga la misma tasa de aprendizaje entre diferentes juegos. Al mismo tiempo, sin clips, afectará el rendimiento del agente, ya que diferentes órdenes de magnitud darán lugar a problemas de derivación (¿no se pueden leer?)

En el experimento, se utilizó el método de optimización de gradiente de RMSProb, y el mini lote se configuró en 32. Al seleccionar los parámetros de la estrategia codiciosa, disminuye de 1. a 0.1 en el primer cuadro de 1M, y luego permanece sin cambios en 0.1.

Al mismo tiempo, en cada entrenamiento de episodios, se adopta el método k-th skip, es decir, la selección de muestra se realiza cada k fotogramas, para que pueda entrenarse k veces al mismo tiempo.

función de pérdida

La función de valor de acción óptima sigue una condición importante: la ecuación de Bellman
Para todas las acciones posibles a 'de estado s', Q (s ', a') es el valor óptimo, entonces la estrategia óptima es maximizar r + γQ (s ', a')

Por lo tanto, con la ayuda de Bellman, actualización iterativa de Q:

Pero, de hecho, este enfoque no es factible. Debido a que la función de valor de acción evalúa cada secuencia independientemente, no involucra ningún proceso de generación. Por lo tanto, los métodos de aproximación de funciones se usan más comúnmente para estimar funciones de valores de acción, como la aproximación de funciones lineales o la aproximación de funciones no lineales por medio de redes neuronales.

Calcule la desviación cuadrática media durante el proceso de iteración:

Más reducido a:

En el aprendizaje supervisado, el valor objetivo se determina durante el proceso de capacitación. Pero aquí, el valor objetivo depende de los pesos de la red. En cada paso de la optimización del gradiente, arreglamos los parámetros de la iteración anterior θi-para optimizar la función de pérdida. El último elemento en la fórmula anterior es la varianza del valor objetivo, que generalmente se ignora y no se procesa (no depende de θi).
Diferenciar la función de pérdida:

Proceso de entrenamiento

Algoritmo profundo de Q-learning utilizando la experiencia de reproducción. El proceso de capacitación es el siguiente:

En el proceso de entrenamiento, se adopta la estrategia codiciosa, es decir, cuando todas las funciones de valor de acción Q obtenidas de la salida de la red, la acción correspondiente al valor máximo no se selecciona directamente, sino que se toman ξ-greedy policy, es decir, se pueden seleccionar otras acciones con una pequeña probabilidad para garantizar la exploración Diversidad de espacio. Al rastrear el puntaje promedio de cada episodio, se puede ver que la función Q puede converger a un cierto valor de manera constante.

sin modelo: el algoritmo usa directamente las muestras del simulador para resolver la tarea de aprendizaje de refuerzo, y no estima explícitamente la dinámica de retorno y transición P (r, s '| s, a)
fuera de la política: el algoritmo aprende una estrategia codiciosa a = argmaxQ (s, a '; θ), de acuerdo con la distribución del comportamiento para garantizar la exploración suficiente del espacio de estado

Resumen

En el artículo, el autor también mencionó que DQN puede aprender una estrategia a largo plazo (mencionada en el juego de eliminar ladrillos en el pequeño acosador: el agente puede aprender a través del aprendizaje de refuerzo, primero abrir una esquina y luego estará en el techo Hable de ida y vuelta para obtener un alto rendimiento)
Alabé la red DQN propuesta con muy poco conocimiento previo, red simple y el mismo algoritmo modelo, en una variedad de entornos (múltiples juegos), con la ayuda de información de píxeles y puntajes de juegos, obtenemos un nivel humano agente
El algoritmo de repetición es muy bueno, ya que reduce el impacto del entrenamiento.
Red de valor objetivo independiente (en realidad, copie los parámetros de la red Q, retrase el paso C para actualizar)

[Estudio de tesis] DQN para el aprendizaje intensivo Introducción

Prólogo

Resumen

Ideas

Función de valor de acción

Experimenta la reproducción

Doble iteración de red Q

Detalles del algoritmo

Pretratamiento

Construir modelo

1. Ingrese

2. Capa convolucional y capa totalmente conectada

Detalles de entrenamiento

función de pérdida

Proceso de entrenamiento

Resumen

Supongo que te gusta