- 論文タイトル:深層強化学習による継続的制御
問題は解決しましたか?
この記事はアルゴリズムにDeep Q-Learning
適用されDeterministic Policy Gradient
ます。あなたが知っている場合DPG
は、この記事では紹介しているDQN
ビット改善DPG
のをstate value function
。離散アクションスペースのみDQN
を見つける必要性のmaximizes action-value
制限を解決します。
背景
実際、これは次の2つの記事を組み合わせたものです。
使用した方法は?
このDDPG
I、あまりにもおなじみの、私は本当に何付録を書きたくない、それ擬似コード:
効果は?
実験結果を以下に示します。
情報公開?著者情報?
この記事はICLR2016
上記のものです。最初の著者はTimothyP.Lillicrap
あるGoogle DeepMind
のresearch Scientist
。
研究では、最適な制御と意思決定のために機械学習と統計に焦点を当て、これらの数学的フレームワークを使用して脳がどのように学習するかを理解しています。最近の仕事では、強化学習のコンテキストでディープニューラルネットワークを活用するための新しいアルゴリズムとアプローチ、およびワンショット学習のための新しいリカレントメモリアーキテクチャを開発しました。この作品のアプリケーションには、1つの例から画像を認識するためのアプローチ、視覚的な質問応答、ロボット工学の問題のディープラーニング、GoやStarCraftなどのゲームのプレイが含まれます。また、中枢神経系によってどのように堅牢なフィードバック制御法則が学習および採用されているかを明らかにする深いネットワークモデルの開発にも魅了されています。
- 個人ホームページ:http://contrastiveconvergence.net/~timothylillicrap/index.php
私のWeChat パブリックアカウント名:ディープラーニングと高度なインテリジェントな意思決定WeChat パブリックアカウント
ID:MultiAgent1024
パブリックアカウントの紹介:主に、ディープラーニング、機械ゲーム、強化学習、その他の関連コンテンツを調査して共有します。あなたの注意を楽しみにして、一緒に進歩を学び、交換することを歓迎します!