一、Q-러닝
강화 학습은 크게 모델 없는 강화 학습 알고리즘 과 모델 기반 강화 학습 알고리즘의 두 가지 범주로 나눌 수 있습니다 . 모델 없는 강화 학습 알고리즘은 미래 상태와 보상을 예측하기 위해 환경 전이 함수 모델을 학습하지 않습니다. Q-learning, deep Q-networks 및 정책 기울기 방법은 환경 변환 함수의 모델을 생성하지 않기 때문에 모델이 없는 알고리즘입니다.
1. Q-러닝 알고리즘
Q-learning 알고리즘의 프로세스는 다음과 같습니다.
1. Q-테이블 초기화
2. Epsilon-Greedy 탐색 전략을 사용하여 작업 선택
3. Bellman 방정식을 사용하여 Q 테이블 업데이트