SLM ラボ: 新しい RL 研究ベンチマークとソフトウェア フレームワーク

コンピューティングと人材の増加により、強化学習 (RL) 研究は機械学習の注目の分野となり、自動運転車、ロボット工学、創薬などの問題解決にすでに使用されています。ただし、既存の作業を再現し、反復的な改善を正確に評価する方法を見つけることは、依然として RL にとって困難な課題です。

RL の勢いに合わせて、Machine Zone、Google Brain、カリフォルニア工科大学の研究者チームは、再現可能な強化学習研究のための新しいソフトウェア フレームワークとベンチマークを導入しました。

ここに画像の説明を挿入

「SLM Lab」は、PyTorch のモジュール型深層強化学習フレームワークです。2 つの RL アルゴリズムにわずかな違いしかない場合、各アルゴリズムの独立した実装を実行して相対的なパフォーマンスを比較すると、不明確なパフォーマンス分析が得られる可能性があると研究者らは説明しました。したがって、彼らは、SLM ラボで RL アルゴリズムをモジュール式に実装することを選択しました。そのため、パフォーマンスの違いは、実装間の違いではなく、アルゴリズム間の違いに確実に起因すると考えられます。

同チームはまた、コードのモジュール化は新しいRLアルゴリズムの実装を容易にするため、研究目的に有益である可能性があるとも述べた。モジュール性は SLM Lab の中核であり、その RL アルゴリズムは 3 つの基本クラスで定義されています。

1. アルゴリズム: 環境との相互作用を処理し、運用ポリシーを実装し、アルゴリズム固有の損失関数を計算し、トレーニング ステップを実行します。

2. ネットワーク: アルゴリズム関数近似器として使用されるディープ ネットワークを実装します。

3. メモリ: トレーニングに必要なデータの保存と取得を提供します。

ここに画像の説明を挿入

実装が RL アルゴリズムのパフォーマンスに大きな違いを引き起こす可能性があるのと同様に、環境やハイパーパラメーター設定などの他の要因も同様です。ユーザーがさまざまな設定やパフォーマンスの違いをよりよく理解できるように、チームは構造化された「セッション - トライアル - 実験」の順序で実験を組織しました。SLM Lab では、環境内でのアルゴリズムの 1 回の実行が「セッション」であり、セッションの集合にはトライアルが含まれます。実験は、さまざまなアルゴリズムと環境を使用した実験の集合です。チームはまた、アルゴリズムの構成可能な各ハイパーパラメータを仕様ファイルで指定しました。

ここに画像の説明を挿入

チームは、62 の Atari ゲーム、OpenAI Gym を介した 11 のロボスクール環境、および 4 つの Unity 環境でアルゴリズムをテストしました。10,000 または 1,000 トレーニング フレームごとに、環境内のエージェントにチェックポイントが作成されます。結果は、最初の 100 トレーニング チェックポイントにわたる各トレーニングの平均後のエピソードごとのスコアを表します。この測定は、劇的なパフォーマンスの変化を追跡するよりも、平均的なパフォーマンスを示すのに適していると研究者らは説明しています。

ここに画像の説明を挿入

ここに画像の説明を挿入

Atari ゲームでの DQN および DDQN+PER アルゴリズムの実験ではさまざまなパフォーマンス結果が得られましたが、PPO および A2C アルゴリズムの結果は OpenAI によって行われた以前の作業と同様でした。実験では、連続制御問題における PPO と比較した SAC アルゴリズムの強度も確認されています。研究者らは、計算上の制約が異なる結果の要因となっている可能性があると指摘している。

今後、RL が急速に進歩し続け、研究者が新しいアルゴリズムを実装して新しい結果を発表するにつれて、SLM Lab はアルゴリズムと再現性を調べるための便利な新しいツールを RL 研究コミュニティに提供します。

Synced は以前、いくつかの関連研究、DeepMind の Bsuite について報告しました。これは、RL エージェントの中核機能を評価し、研究者がさまざまなアプリケーションにおける長所と短所をより深く理解できるように設計された一連の実験です。論文の Reinforcement Learning Behavior Suite (Bsuite) では、明確で有益かつスケーラブルな問題を使用して、ベンチマークでの RL エージェントの動作を観察することで、さまざまな学習アルゴリズムの中核問題を研究します。

論文「SLM Lab: A Comprehensive Benchmark and Modular Software Framework for Reproducible Deep Reinforcement Learning」は arXiv で公開されています。SLM Lab は GitHub からインストールできます。

おすすめ

転載: blog.csdn.net/virone/article/details/131937010