強化学習チューニング エクスペリエンスの大規模な統合: TD3、PPO+GAE、SAC、離散アクション ノイズ探索、およびオフポリシー アルゴリズムとオンポリシー アルゴリズムの共通ハイパーパラメーター

1. 強化学習の一般的なパラメータ設定

(1) 強化学習アルゴリズムの選択

現在推奨されているアルゴリズムは主に次のとおりです。

離散制御問題に対する提案されたアルゴリズム:

①D3QN——D3 は Dueling Double DQN を指し、主に Double DQN と Dueling DQN のメソッド アーキテクチャを統合し、Noisy DQN と併用して γ-greedy メソッドと連携して探索効率を向上させることもできます。

②SAC-Discrete——提案された主な目標は、混合アクション空間における意思決定問題を解決することであり、出力アクションベクトルは各アクションの実行確率とみなされ、具体的な効果の評価は高いか低いです。

③H-PPO——H-MPOは離散空間情報処理に基づくPPOアルゴリズムです。

連続制御問題に推奨されるアルゴリズム:

PPO+GAE——PPO は TRPO の簡易版であり、パラメータ調整が簡単で堅牢性が高いという特徴があります。GAE は一般化アドバンテージ推定を指し、経験的な軌跡に基づいてアドバンテージ関数の推定値を生成し、Critic がその値を適合させて、少量の軌跡を使用して現在の戦略を記述するという目標を達成します。 GAE はさまざまな RL アルゴリズムと組み合わせることができますが、PPO との互換性はなく、組み合わせ効果が最も高く、トレーニングが最も安定し、パラメータ調整が最も簡単です。

SAC(温度パラメータの自動化αバージョン)——温度係数を自動的に調整してポリシーエントロピーの動的なバランスを維持しますが、経験上、最適なポリシーの境界アクションが多数あるタスクには適さないことが指摘されています。つまり、最適なポリシーに基づく多数のアクションが境界値に達した場合、影響はさらに悪化します。たとえば、ロボットを全速力で移動するように制御することが通常は最適解である場合、SAC アルゴリズムの使用は適していません。主な理由は、SAC が戦略エントロピーを計算するときに Tanh() の導関数を使用することです。

おすすめ

転載: blog.csdn.net/sinat_39620217/article/details/131730358