[] DQN 깊이 학습 경험의 재생 (경험 답글)와 대상 네트워크 (대상 네트워크)

머리말

Q-학습 알고리즘의 경우, 두 점에서 단점이 있습니다 :

  1. 차원의 저주, 이것은 국가의 수가 증가는,이 문제가 더 애매한 될 것이다 저장 인해 룩업 테이블에 분리 된 상태 공간에서 강화 학습을 시작해야하는 업데이트 Q 값이다;
  2. 상태 공간의 크기의 이산화 들어 저급 입도는 일반화 능력을 Q-학습 약하다는 차례로 높은 입도는 상태의 수의 기하 급수적 성장을 초래할 수있다.

DQN 비선형 함수 근사 연속 고차원 상태 공간을 나타내는 함수 Q의 값을 이용하여, 뉴럴 네트워크의 깊이 나타났다. , 즉 Θ 신경망 파라미터. 손실 함수는 "평균 제곱 오차 TD"라고 표현 될 수있다 :

그리고 P 동작 액션 개념의 선택은 , P는 볼츠만 분포 순종. 특징 B {t}\ 베타 _ {t}가까워 마찬가지로,이 최대 값의 연산에 대한 Q (S, A)을 선택, 즉 가까워 욕심 전략을 낮출 것을 높은 확률. 일반적으로, 더 초기에 제공한다 \ 베타 _ {t}후 서서히 감소한다. 

배울 수있는 DQN의 능력을 향상하기 위해, 우리는 대상 네트워크 및 재생 경험을 아래에 자사의 반복에 두 기술을 결합했다.


재생 경험

데이터를 획득, 저장 및 무작위 샘플링 깊이 파라미터 샘플 업데이트 신경망 시스템 환경 탐사.

환경과 에이전트 상호 작용 훈련 샘플을 얻을 독립적이고 동일하게 분포되지 않습니다 이 문제 DQN에 소개하고 경험을 재생 메커니즘을 해결하기 위해. 과거에 재생의 버퍼 정보, 과거 경험과 경험을 현재의 혼합을 사용하여 경험, 데이터 의존성을 줄일 수 있습니다. 그리고, 시료를 재사용 할 수있는 더 재생 경험하도록함으로써 학습 효율을 향상시킬 수있다.

 


대상 네트워크

RL에서는 때 비선형 함수의 근사 함수 Q 값, 오작동을 학습을 나타내는 충격 경향 Q 값 업데이트. 대상 네트워크로이를 위해.

온라인 네트워크 때문에   Q (t S_ {}} A_ {t | \ 세타)업데이트는 기반으로 계산.

대상 네트워크는 동등  Q (t S_ {}} A_ {t | \ 세타)사본에 있지만 대상 네트워크에 독립적 인 매개 변수는 단계의 모든 X 온라인 네트워크에 업데이트됩니다. 이는 학습 과정이 더 안정 그래서, 일시적으로 교육 과정에서 해결 된 Q 값을합니다.


위의 두 가지 메커니즘을 사용하는 경우, 손실 함수의 DQN는 다음과 같이 표현 될 수있다 :

게시 83 개 원래 기사 · 원 찬양 14 ·은 30000 +를 볼

추천

출처blog.csdn.net/weixin_38121168/article/details/103046979