기계 학습 노트 - Deep Q-Learning 알고리즘 개요

一、Q-러닝

강화 학습은 크게 모델 없는 강화 학습 알고리즘모델 기반 강화 학습 알고리즘의         두 가지 범주로 나눌 수 있습니다 . 모델 없는 강화 학습 알고리즘은 미래 상태와 보상을 예측하기 위해 환경 전이 함수 모델을 학습하지 않습니다. Q-learning, deep Q-networks정책 기울기 방법은 환경 변환 함수의 모델을 생성하지 않기 때문에 모델이 없는 알고리즘입니다.

1. Q-러닝 알고리즘

        Q-learning 알고리즘의 프로세스는 다음과 같습니다.

        1. Q-테이블 초기화

        2. Epsilon-Greedy 탐색 전략을 사용하여 작업 선택

        3. Bellman 방정식을 사용하여 Q 테이블 업데이트

おすすめ

転載: blog.csdn.net/bashendixie5/article/details/133297677