Notas sobre aprendizaje automático: juego de serpientes basado en aprendizaje por refuerzo

1. Acerca del aprendizaje por refuerzo profundo

        Si no comprende el proceso general del aprendizaje por refuerzo profundo, puede considerar consultar el enlace a continuación. Porque los ejemplos aquí implementan algoritmos de aprendizaje por refuerzo profundo sobre PyTorch.

Notas sobre aprendizaje automático: descripción general del algoritmo Deep Q-Learning Deep Q-Learning es un algoritmo de aprendizaje por refuerzo que utiliza una red neuronal profunda para aproximar la función Q y se utiliza para determinar la mejor acción a realizar en un estado determinado. La función Q representa la recompensa acumulativa esperada por realizar una acción específica en un estado específico y seguir una estrategia específica. En Q-Learning, la función Q se actualiza iterativamente a medida que el agente interactúa con el entorno. El Q-learning profundo se puede utilizar en una variedad de aplicaciones, como juegos, robótica y vehículos autónomos. El entorno Cartpole es uno de los problemas clásicos de aprendizaje por refuerzo más famosos (el "¡Hola mundo!" del aprendizaje por refuerzo). Un poste está sujeto a un carro que se mueve a lo largo de una vía sin fricción. El poste comienza en posición vertical y el objetivo es evitar que se vuelque controlando el carro. https://skydance.blog.csdn.net/article/details/133297677         Este enfoque implica la interacción entre dos componentes: el entorno (el juego en sí) y el agente (Snake). El agente recopila información sobre su estado actual y realiza acciones en consecuencia. El entorno premia o castiga al agente en función de las acciones realizadas. Con el tiempo, los agentes aprenden qué comportamientos

Supongo que te gusta

Origin blog.csdn.net/bashendixie5/article/details/133299498
Recomendado
Clasificación