Clase 2: Procesos de Decisión de Markov

Parte 1

En primer lugar, la cadena de Markov

Markov cuenta para cumplir con la futura transferencia del pasado es una organización independiente, que sólo depende de la presente.
matriz de transición de estados
Aquí Insertar imagen Descripción
después de una cadena de Markov dado puede ser muestreada para obtener una pista.

En segundo lugar, los procesos de recompensa de Markov

Markov Chain + función recompensa
función recompensa es una deseable
poder analógica sin barcos de papel, la deriva a una determinada posición para dar la recompensa correspondiente.
Aquí Insertar imagen Descripción
función de valor es la recompensa futura expectativa
Aquí Insertar imagen Descripción
razón para introducir la gamma
no caer en el anillo; al mismo tiempo, se puede obtener tan pronto como los incentivos apropiados, no sólo recompensado más adelante.

Es posible ajustar 0: sólo se preocupa por la recompensa actual
se puede ajustar a 1: más preocupados por la recompensa futura

Cálculo de un valor de estado, mediante la adopción de una gran cantidad de pista, y después tomando el promedio del estado (Monte Carlo)
o por la ecuación Bellman:
Aquí Insertar imagen Descripción
ecuación de Bellman es la relación entre el estado actual y la iteración estado futuro:
Aquí Insertar imagen Descripción
R & lt aquí está ahora alcanzar una posición s el premio resultante, independientemente del momento siguiente.

La ecuación de Bellman escrita en forma de matriz:
Aquí Insertar imagen Descripción
la inversión a través de la matriz, el valor de buscar. Cuando millones de dólares para el estado cuando la inversión es muy complejo.

El método más simple es métodos iterativos:

Programación Dinámica
Monte Carlo
TDlearning

(1), el Monte Carlo
de un cierto estado para dar una gran cantidad de pistas, para dar una gran cantidad de G, de promedio, el valor puede ser obtenido.
(2), programación dinámica
valor de función iterativa utilizando la ecuación Bellman hasta la convergencia.

En tercer lugar, el proceso de decisión de Markov

Relativa recompensa de los procesos de Markov más de una acción.
función de probabilidad de transición y el valor son más de una A

Con la acción, por lo que es la estrategia . Estrategias se presentan en dos formas: la forma de la probabilidad de que cada acción hay mucha probabilidad de ser seleccionado, suponiendo que la probabilidad es estático, ya sea el comportamiento determinista.

los procesos de conversión de Markov de decisiones y los procesos de recompensa de Markov:
procesos de decisión de Markov conocidos y una política, sumando cada acción, se puede obtener directamente la probabilidad de transición de Markov procesos de recompensa, y al mismo tiempo para la recompensa función también se puede retirar de la misma manera a una.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

Aquí en el valor de los procesos de decisión de Markov función redefinido, donde la expectativa se basa en la política de pi (G porque se basa en la pi).
Q función definida, sino también pi basada en políticas.
Relación entre los dos, la suma de q para todas las acciones de la función.
Aquí Insertar imagen Descripción

ecuación de Bellman en el pi política se llama la expectativa ecuación de Bellman, en referencia a la suma de todos los comportamientos posibles están fuera.
Aquí Insertar imagen Descripción
En 1 observó también aquí en la forma de un + probabilística (que es también una expectativa, la función es el valor obtenido sumando).

Después de dos obtuvieron interconvertibles:
Aquí Insertar imagen Descripción

La figura dos backtracking
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

Parte 2

Predicción (función de valor) y el control (encontrar la mejor estrategia, la función de mejor valor) Proceso de Decisión de Markov

En primer lugar, la dinámica de Solver

Ponga un problema en un número de sub-estructura, si la subestructura se puede resolver, el problema original puede ser resuelto. estructura de Markov es cumplir con la estructura de programación dinámica. Debido a que la estructura se puede descomponer en una serie de recursiva.

1, la política de iteración:

(1), la evaluación de políticas

El repetido con la política actual iteración Bellman ecuación hasta la convergencia:
Aquí Insertar imagen Descripción
para obtener una función de valor de tiempo capa, puede el valor actual de tiempo.

Después de la eliminación de una suma, puede Markov a los procesos de recompensa a través de una iteración de funciones más ágil dicho valor, se puede obtener el valor de cada estado:
Aquí Insertar imagen Descripción

(2), la política de actualización

MDP es una solución, se refiere a obtener una función de valor óptimo, puede ser la estrategia más óptima.
Aquí Insertar imagen Descripción

¿Cómo encontrar?
Después de la función v convergencia, una q buscan maximizar la función de cada estado es la estrategia óptima.
Aquí Insertar imagen Descripción
Prueba Véase "Introducción a reforzar el aprendizaje."

Cuando la mejora se detuvo, se obtiene la ecuación de Bellman óptima:
Aquí Insertar imagen Descripción

Al mismo tiempo será una función de la ecuación de transferencia entre la función v q y, en el que la ecuación de conversión entre el valor base v es una función de la iteración, la ecuación de conversión entre la función q es base Q-Learning :
Aquí Insertar imagen Descripción

2, iteración valor

A través de la función continua del valor de iteración óptima, y, finalmente, se puede obtener el mejor (mucho) ...
Aquí Insertar imagen Descripción
para encontrar la columna de la estrategia óptima, se puede reconstruir q, y luego encontrar argmax, después de cada ronda de encontrar una estrategia.

3, tanto comparativo

Aquí Insertar imagen Descripción

4, resumen

Aquí Insertar imagen Descripción

Publicado 32 artículos originales · ganado elogios 7 · vistas 2166

Supongo que te gusta

Origin blog.csdn.net/def_init_myself/article/details/105298200
Recomendado
Clasificación