強化学習の実際のアプリケーションを促進するための使いやすく柔軟なRWRLスイート

テキスト/ DeepMindの研究者DanielJ.MankowitzとGoogleの研究研究者GabrielDulac-Arnold

実践により、強化学習(RL)は、Go、StarCraft、Minecraftからロボットの動きチップの設計に至るまで、多くの複雑な問題に効果的に対処できることが証明されています。このような場合、シミュレーターを使用するか、低コストの実際の環境にすばやくアクセスして強化学習を展開できます。ただし、実際の製品やシステムにRLを導入することは、依然として大きな課題に直面しています。たとえば、ロボットシステムや自律運転システムなどの物理制御システムでは、RLコントローラーは通常、物体の把持や高速道路の運転などのタスクを解決するように訓練されています。これらのコントローラーは、センサーノイズ、システム遅延、または通常の摩耗の影響を受けやすく、コントローラー入力の品質を低下させ、誤った決定を導き、壊滅的な潜在的な障害を引き起こします。

物理制御システム:XのEveryday Robot Projectで、ロボットはRLを使用してオブジェクトをつかんで選択する方法を学習しています。これらのタイプのシステムは、ここで詳しく説明する実際の課題の影響を受けます

  • ゴー
    https://deepmind.com/research/case-studies/alphago-the-story-so-far

  • StarCraft
    https://deepmind.com/research/publications/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

  • Minecraft
    https://arxiv.org/abs/1604.07255

  • 日常のロボットプロジェクト 
    https://x.company/projects/everyday-robots/

 記事「実世界強化学習の課題」は、アプリケーション・システムの現在のRLアルゴリズムの適用を妨げる9さまざまな課題について議論しました。経験的研究に基づいてこの作業をフォローアップし、最先端の(SOTA)RLアルゴリズムでこれらの課題をシミュレートし、さまざまな効果をベンチマークします。これらの重要な問題に人々の注意を引き付け、これらの問題の研究と解決を加速するために、Real-World Reinforcement Learning(RWRL)タスクスイートでこれらのシミュレーションの課題をオープンソース化しました。

  • 実世界での強化学習の課題
    https://arxiv.org/abs/1904.12901

  • 実世界の強化学習
    https://arxiv.org/abs/1904.12901

RWRLキット

RWRLスイートは、適用された強化学習の課題に触発された一連のシミュレーションタスクです。目標は、実際のシステムで低速で費用のかかる実験を実行することなく、研究者や実践者がアルゴリズムをすばやく反復できるようにすることです。シミュレートされたトレーニングRLアルゴリズムから実際のアプリケーションへの移行は他の課題に直面しますが、キットは、より基本的なアルゴリズムのギャップのいくつかを埋めることを目的としています。RWRLは現在、DeepMind Control Suiteドメインのサブセットをサポートしていますが、スイートの範囲は、より多様なドメインセットをサポートするために引き続き拡張されます。

  • DeepMind Control Suite
    https://github.com/deepmind/dm_control

使いやすく柔軟性

キットを設計する際に、2つの主な目標を考慮しました。

  • 使いやすさ-ユーザーは、キットをダウンロードしてから数分以内に実験の実行を開始するために、数行のコードを変更するだけで済みます。

  • 柔軟性-ユーザーは、さまざまな課題を環境に簡単に組み合わせることができる必要があります。

遅延アクションの例

RWRLスイートの使いやすさを説明するために、研究者または開業医がアクション遅延(つまり、アクションが環境に送信されるまでの時間遅延)を実装したいとしていると想像してください。RWRLキットを使用するには、rwrlモジュールをインポートするだけです。次に、delay_specパラメーターを使用して環境(Cartpoleなど)をロードします。このオプションのパラメーターは、アクション、オブザベーション、または報酬に適用される遅延、および対応する要素が遅延するタイムステップ数(たとえば、20タイムステップ)を構成する辞書として指定されます。環境がロードされた後、アクションの効果は、実験に他の変更を加えることなく自動的に遅延されます。したがって、RWRLスイートでサポートされている一連の異なる環境でアクション遅延を使用してRLアルゴリズムをテストするのは簡単です。

RWRLスイートの概要。数行のコードで、環境にチャレンジ(アクション遅延など)を追加し、ハイパーパラメータースキャンを実行して、右に示すグラフを生成できます。

ユーザーは、ロード関数にパラメーターを追加して、さまざまなチャレンジを組み合わせるか、事前定義されたベンチマークチャレンジのセットから選択するだけで済みます。すべてのパラメーターは、オープンソースのRWRLスイートコードベースで指定されます。

  • コードベース
    https://github.com/google-research/realworldrl_suite

サポートされている課題

RWRLスイートが提供する機能は、9つの異なる課題のうち8つに関連する実験をサポートできます。これらの課題により、現在のRLアルゴリズムをアプリケーションシステムに適用することが困難になります。サンプル効率、システム遅延、高次元の状態とアクションスペース、制約。可観測性、ランダム性、非定常性、多目的、リアルタイムの推論、オフラインログからのトレーニング。解釈可能性のタスクは抽象的で定義が難しいため、RWRLはこの課題を排除します。サポートされている実験は完全に網羅されているわけではないため、研究者や実務家はさまざまな課題の側面でエージェントの能力を分析できます。サポートされている課題の例は次のとおりです。

システムの遅延
ほとんどの実際のシステムでは、認識、動機付け、または報酬のフィードバックに遅延があります。これらは、構成してRWRLスイートの任意のタスクに適用できます。次の図は、アクション(左)、観測(中央)、および報酬(右)が遅延しているときのD4PGエージェントのパフォーマンスを示しています。

4つのMuJoCoドメインで、アクション(左)、観測値(中央)、および報酬(右)の遅延を追加した場合の、最も高度な(SOTA)RLエージェントへの影響

図に示すように、研究者または開業医は、どのタイプの遅延がエージェントのパフォーマンスに影響を与えるかをすばやく理解できます。これらの遅延の影響は、組み合わせて観察することもできます。

制約
ほとんどすべてのアプリケーションシステムには、全体的な目標に何らかの形の制約が組み込まれていますが、これはほとんどのRL環境では一般的ではありません。RWRLスイートは、制約RLの調査を容易にするために、タスクごとに異なる難易度の一連の制約を実装します。次のビデオは、複雑な局所角速度制約の違反の例を視覚的に示しています。

逆振り子拘束違反の例。赤いインターフェースは、局所角速度に違反していることを示しています

非定常性の
ユーザーは、環境パラメーターを乱すことによって非定常性を導入できます。これらの妨害は、最近の監督された深層学習研究でより一般的になっているピクセルレベルの敵対的妨害とは対照的です。たとえば、人間の歩行者の領域では、頭のサイズと地面の摩擦をトレーニングプロセス全体で変更して、状態の変化をシミュレートできます。RWRLスイートにはさまざまなスケジューラー(詳細についてはコードベースを参照してください)とさまざまなデフォルトのパラメーター摂動が用意されています。これらの外乱を細かく定義して、最先端の学習アルゴリズムの学習能力を制限することができます。

  • コードベース
    https://github.com/google-research/realworldrl_suite/blob/f7143e830a0ef915457cef9de48abae6238c0d2d/realworldrl_suite/environments/realworld_env.py#L25

非定常障害。このキットは、ヘッドサイズの変更(中央)や接触摩擦(右)など、さまざまなセグメントでの摂動環境パラメーターをサポートします。

オフラインログデータからのトレーニング
ほとんどのアプリケーションシステムでは、実験の実行は遅く、費用がかかります。通常、以前の実験のデータログを使用して戦略をトレーニングできます。ただし、データが限られている、変動が少ない、または品質が低いため、生産において以前のモデルを上回ることが難しい場合がよくあります。この問題を解決するために、RWRLベンチマークの課題を組み合わせたオフラインデータセットを生成し、より広範なオフラインデータリリースの一部として使用しました。詳細については、このノートブックを参照してください。

  • オフラインデータリリース
    https://arxiv.org/abs/2006.13888

  • ノートブック
    https://github.com/deepmind/deepmind-research/blob/master/rl_unplugged/rwrl_d4pg.ipynb

結論として

ほとんどのシステムが単一の課題しか示さないことはめったにないため、複数の課題があり、難易度が高くなる(「簡単」、「中」、「難しい」)環境にアルゴリズムがどのように対処できるかを確認できてうれしいです。研究コミュニティがこれらの課題を解決しようとすることを切に願っています。これらの課題を解決することで、製品や実際のシステムでのRLの幅広い適用が促進されると信じています。

RWRLスイートの最初の一連の機能と実験は、RLの現在の状況とアプリケーションシステムの課題との間のギャップを埋めるための出発点を提供しますが、まだやるべきことがたくさんあります。サポートされている実験は網羅的ではありません。RLエージェントの機能をより適切に評価するためのコミュニティからの新しいアイデアを歓迎します。このスイートの主な目標は、アプリケーション製品およびシステムでのRLアルゴリズムの有効性を制限する主要な問題に関する研究を強調および奨励し、将来のRLアプリケーションの実現を加速することです。

ありがとう

私たちの中心的な貢献者であり共著者であるNirLevineの貴重な支援に感謝します。また、共著者のJerry Li、Sven Gowal、Todd Hester、Cosmin Paduraruのほか、ACMEチームのRobert Dadashi、Dan A. Calian、Juliet Rothenberg、TimothyMannの貢献にも感謝します。

その他のAI関連の読書:

おすすめ

転載: blog.csdn.net/jILRvRTrc/article/details/108877840