深層強化学習の知識ポイント - DQN、DDPG、AC - 貪欲アルゴリズム

DRL 学習中にまとめられたいくつかの知識ポイント

最近、凸最適化と DRL を使用して通信分野のリソース割り当て問題を解決する方法を学んでいます。

#最近の研究分野:

1. エッジ コンピューティング;
2. MEC;
3. デジタル ツインズ;
4. タスク オフロード;
5. 凸最適化、深層強化学習;
誰かが気に入ったら、引き続きそのコードと関連コードを共有します

1.ディープQネットワーク(DQN)

Deep Q-Network (DQN) アルゴリズム (Mnih et al.、2015)。生のピクセルを入力として使用する多くの Atari ビデオ ゲームで人間レベルのパフォーマンスを達成できます。この目的を達成するために、ディープ ニューラル ネットワーク関数近似器を使用してアクション価値関数を推定します。

Q 学習の主なアイデアは、状態とアクションの間に Q テーブルを構築して Q 値を保存し、最大の Q 値に対応するアクションを選択することです。各状態とアクションのペアには値 Q(s, a) があり、これは長期的な報酬と見なすことができます。継続的なトレーニング プロセスでは、Q テーブルが収束するまで TD エラーを通じて Q 値を更新できます。(問題の状態とアクション空間が非常に大きい場合、すべての Q(s, a) を Q テーブルに記録することは非現実的です。そのため、ディープ ニューラル ネットワークを使用して、各 Q(s, a) を推定します。状態 - アクション ペアは Q 値を計算します。これはディープ Q ネットワーク (DQN) の基本的な考え方でもあります。)

しかし、DQN は高次元の観測空間の問題は解決しますが、離散的で低次元の行動空間しか扱えません。多くの興味深いタスク、特に物理制御タスクには、連続的な (実数値の) 高次元のアクション空間があります。DQN は、アクション価値関数を最大化するアクションを見つけることに依存しているため、連続ドメインに直接適用することはできません。また、連続値の場合、各ステップで反復的な最適化プロセスが必要です。

深い決定論的政策勾配(DDPG)

オーンシュタイン・ウーレンベック ノイズは DDPG 論文の探索に使用されていますが、なぜガウス ノイズを使用しないのでしょうか?

OU プロセスは時系列に関連しているため、OU プロセスを使用して、強化学習の前のステップと次のステップのアクション選択プロセスで時系列に関連した探索を生成し、制御タスクの探索効率を向上させることができます。慣性システム (つまり、環境)。(注: ガウス ノイズはタイミングとは無関係です。ノイズは、前のステップと次のステップでアクションを選択するときに独立しています。前後の 2 つのアクションは状態によってのみ独立しています。) したがって、OU プロセスの適用可能なシナリオは次のとおりです。
: 独立したノイズと比較して、OU ノイズは慣性システム、特に時間離散化の粒度が小さい場合に適しています。ロボットアームなどの実際のシステムを保護できます。

俳優・評論家

DDPG アルゴリズムは、戦略ネットワーク (アクター) と評価ネットワーク (批評家) の 2 つのネットワークをトレーニングします。ポリシー ネットワークの入力は状態、出力はアクションです。評価ネットワークの入力は状態と行動のペアであり、出力は状態と行動のペアの Q 値推定です。批評家はアクターの損失関数とみなすことができますが、批評家は MSE のような固定の損失関数ではなく、継続的に学習できるニューラル ネットワークです。対立ネットワークでは、ジェネレータージェネレーターに勾配を提供するために使用されるディスクリミネーター discriminator はクリティカルと呼ばれることがあります。

批評家の最適化目標は批評家の損失を最小限に抑えることですが、アクターの最適化目標は批評家ネットワークによって与えられる Q 値推定値を最大化することです (批評家ネットワークによって与えられる Q 値推定値の負の値を最小化することと同じです)。

クリティカル ネットワークの最適化の目的は、損失関数損失関数 (MSE) によって提供される勾配に従ってクリティカル ネットワークのパラメーターを更新し、ネットワークによって出力される Q 値とラベルの間の距離を最小化することです。トレーニングによってクリティカルロスが0に近づくとも言えます。

アクター ネットワークの最適化の目的は、損失関数損失関数 (クリティカル ネットワーク) によって提供される勾配に従ってアクター ネットワークのパラメーターを更新し、クリティカル ネットワークによって与えられる Q 値の推定値を最大化することです。批評家ネットワークの Q 値は、トレーニングによって可能な限り大きくなるように推定されるとも言えます。

電子貪欲アルゴリズム

ϵ-greedy アルゴリズムは、確率に基づいて探索と利用の間で妥協を行います。試行する
たびに ϵ の確率で探索し (テスト、必ずしも最良の選択からではなく、すべてのサンプルがランダムに選択されます)、次の確率で続行します。 1-ϵ Exploit (エクスプロイト、収益を最大化するアクションのみを選択)。

アルゴリズム処理

おすすめ

転載: blog.csdn.net/qq_45296693/article/details/130438756