【5分钟論文】深層強化学習による連続制御

  • 論文タイトル:深層強化学習による継続的制御

タイトルと著者情報

問題は解決しましたか?

  この記事はアルゴリズムにDeep Q-Learning適用されDeterministic Policy Gradientます。あなたが知っている場合DPGは、この記事では紹介しているDQNビット改善DPGのをstate value function離散アクションスペースのみDQNを見つける必要性maximizes action-value制限を解決します

背景

  実際、これは次の2つの記事を組み合わせたものです。

使用した方法は?

  このDDPGI、あまりにもおなじみの、私は本当に何付録を書きたくない、それ擬似コード:

DDPGアルゴリズム

効果は?

  実験結果を以下に示します。

ここに画像の説明を挿入

情報公開?著者情報?

  この記事はICLR2016上記のものです。最初の著者はTimothyP.LillicrapあるGoogle DeepMindresearch Scientist

  研究では、最適な制御と意思決定のために機械学習と統計に焦点を当て、これらの数学的フレームワークを使用して脳がどのように学習するかを理解しています最近の仕事では、強化学習のコンテキストでディープニューラルネットワークを活用するための新しいアルゴリズムとアプローチ、およびワンショット学習のための新しいリカレントメモリアーキテクチャを開発しましたこの作品のアプリケーションには、1つの例から画像を認識するためのアプローチ、視覚的な質問応答、ロボット工学の問題のディープラーニング、GoやStarCraftなどのゲームのプレイが含まれます。また、中枢神経系によってどのように堅牢なフィードバック制御法則が学習および採用されているかを明らかにする深いネットワークモデルの開発にも魅了されています。

  • 個人ホームページ:http://contrastiveconvergence.net/~timothylillicrap/index.php

著者アバター

私のWeChat パブリックアカウント:ディープラーニングと高度なインテリジェントな意思決定WeChat パブリックアカウント
ID:MultiAgent1024
パブリックアカウントの紹介:主に、ディープラーニング、機械ゲーム、強化学習、その他の関連コンテンツを調査して共有します。あなたの注意を楽しみにして、一緒に進歩を学び、交換することを歓迎します!

185件の元の記事を公開 168 件の賞賛 21万回の表示

おすすめ

転載: blog.csdn.net/weixin_39059031/article/details/104612372