Gran integración de experiencia de ajuste de aprendizaje por refuerzo: TD3, PPO+GAE, SAC, exploración de ruido de acción discreta e hiperparámetros comunes de algoritmos fuera de política y dentro de política

1. Configuración de parámetros generales para el aprendizaje por refuerzo

(1) Selección del algoritmo de aprendizaje por refuerzo

Los algoritmos actualmente recomendados son principalmente:

Algoritmo propuesto para problemas de control discreto :

①D3QN——D3 se refiere a Dueling Double DQN, que integra principalmente la arquitectura de métodos de Double DQN y Dueling DQN, y también se puede usar con Noisy DQN para cooperar con el método γ-voraz para mejorar la eficiencia de exploración.

②SAC-Discreto: el objetivo principal propuesto es resolver el problema de toma de decisiones en el espacio de acción mixta, y el vector de acción de salida se considera como la probabilidad de ejecución de cada acción, y la evaluación del efecto específico es alta o baja.

③H-PPO——H-MPO es un algoritmo PPO basado en el procesamiento de información espacial discreta.

Algoritmo sugerido para problemas de control continuo :

PPO+GAE——PPO es una versión simplificada de TRPO, que tiene las características de ajuste de parámetros simple y robustez fuerte. GAE se refiere a la Estimación de ventaja generalizada, que generará un valor estimado de la función de ventaja en función de la trayectoria empírica, y luego permitirá que Critic ajuste el valor para lograr el objetivo de usar una pequeña cantidad de trayectoria para describir la estrategia actual. que aunque GAE se puede combinar con una variedad de algoritmos RL, no es compatible con PPO tiene el mejor efecto de combinación, el entrenamiento más estable y el ajuste de parámetros más fácil.

SAC (versión α de automatización de parámetros de temperatura): mantiene un equilibrio dinámico de la entropía de la política ajustando automáticamente el coeficiente de temperatura, pero la experiencia indica que no es adecuado para tareas en las que la política óptima tiene una gran cantidad de acciones límite, es decir, si una gran cantidad de acciones bajo la política óptima alcanzan el valor límite El efecto será peor, por ejemplo, cuando controlar el robot para que se mueva a toda velocidad suele ser la solución óptima, no es adecuado usar el algoritmo SAC, la razón principal es que SAC usa la derivada de tanh() al calcular la entropía de la estrategia

Supongo que te gusta

Origin blog.csdn.net/sinat_39620217/article/details/131730358
Recomendado
Clasificación