【Aprendizaje】RL

escasa recompensa

No sabemos si la acción es buena o mala, la mayoría de las veces, si r = 0, ¿cómo se puede arreglar eso?

Por ejemplo, un brazo robótico fija un perno a un tornillo y los desarrolladores deben definir recompensas adicionales para guiar al agente (configuración de recompensas).

La formación de recompensas requiere cierto conocimiento del dominio.

Obtenga recompensas adicionales cuando el agente vea algo nuevo (pero significativo).

sin recompensa: aprender de la demostración

motivación

En algunas tareas, incluso definir recompensas puede ser un desafío. Las recompensas hechas a mano conducen a un comportamiento descontrolado.

El aprendizaje por imitación se puede utilizar sin recompensa

Los actores pueden interactuar con el entorno, pero las funciones de bonificación no están disponibles.

En algunos casos extremos (los expertos no se han encontrado), ¿qué debe hacer la máquina?

El agente replica todos los comportamientos, incluso las acciones no relacionadas.

Aprendizaje por refuerzo inverso

El aprendizaje de refuerzo inverso invertirá la ecuación de recompensa según el experto

Una función de recompensa simple no necesariamente aprende un actor simple

Asume que la recompensa del maestro es la mejor, pero no significa imitar completamente al maestro.

Principio: El profesor es siempre el mejor.

Idea básica: se inicializa un actor participante, y en cada iteración, el actor interactúa con el entorno para obtener unas trayectorias.

Defina una función de recompensa tal que la trayectoria del profesor sea mejor que la trayectoria del participante. Los participantes aprenden a maximizar las recompensas de acuerdo con una nueva función de recompensa. Da salida a la función de recompensa y los actores aprendieron de la función de recompensa.

El actor es muy similar al generador en GAN, y la función de recompensa es muy similar al discriminador.

Aprenda de la pantalla de la máquina:

Supongo que te gusta

Origin blog.csdn.net/Raphael9900/article/details/128547118
Recomendado
Clasificación