ディープ強化学習のための非同期メソッド
ペーパーアドレス
注釈
出発点:
オンラインエージェントのステータスデータが観測され、不安定な(非定常)との相関関係です。
DQNは経験のリプレイを使用し、あなたは深さとリンクされ、一般的なトレーニングに留学しバッチおよびランダムなサンプルを使用することができます
A3Cは自然にいくつかの批判を返信体験したかったです:
- より多くのメモリとより多くのコンピューティングリソース
- より古いポリシーのいずれかによって生成されたオフ・ポリシーデータ付き。(しかし、これはまた、それの欠点はありませんが、DQNはオフポリシーは、自分の長所です)
A3CはAC非同期マルチスレッドです。AC延期テーブル。、各エージェントをマルチスレッドみんなの愛は独自のスレッドでプレーに満足している、して、共有グローバルのパラメータを更新。私はオンラインの同等でしたが、上のポリシー。しかし、すべての時間は、私は無関係なデータがたくさんあります訓練のための、非常に良いです。
ただし、更新のための総無視は、私たちが教室の学習プロセスの安全性、プロセスのロックなどで懸命に働いていたとき、何のロックアウトはやってません。実際には、問題ありません。
A3C自然に前方にビッグニュースを置くために、独自の利点を置きます:
- 保存コンピューティングハードウェア、(GPUコントラストK40)
- オンpolcyアルゴリズムは、このように恩恵を受けることができます
- リプレイを体験する長い必要はありません
- 異なる可能性がある別の物質を探索、それは自然である、「探検」
- 線形逆の関係に時間とスレッド