線形報酬形成による楽観的な好奇心の探索と保守的な搾取论文总结

--------------------論文:0
1.タイトル:線形報酬形成による楽観的好奇心探求と保守的搾取
2.著者:Yao Zhang、Tiancheng Lou、Hao Wu、 Dong Yan、Cheng Wu、Shihao Zhang、Yiming Zhang
3.所属: 1 ケンブリッジ大学; 2 テンセントロボティクスX; 3香港科技大学。4 清華大学。5 アイデア; 6 カリフォルニア大学ロサンゼルス校
4.キーワード: 報酬シフト、探索、搾取、深層強化学習 (DRL)
5. URL: http://arxiv.org/abs/2209.07288v2

6.要約:
(1) この論文は、価値ベースの深層強化学習における報酬変換の最も単純な形式である線形報酬変換法を研究します。このペーパーの目的は、探索と活用の促進に対するこのアプローチの影響を調査することです。
(2) 以前に提案された方法は、カウントベース、好奇心ベースの探索など、探索と活用のバランスに対処することを目的としています。これらの方法には限界がありますが、私たちの方法は報酬関数の単純な変換を通じて探索と活用の間のバランスを達成します。私たちの方法は、報酬変換によって最適なポリシーが変更されないため、以前の方法とは異なります。これは、私たちの方法が学習バイアスを引き起こすことなくトレーニング中に探索を促進できることを意味します。
(3) この論文では、線形報酬変換法を 3 種類の深層強化学習タスク (S1) オフライン強化学習、(S2) オンライン継続制御、(S3) 単一ステップのオフライン好奇心探索に適用します。この論文では、さまざまな深層強化学習タスクの結果もテストしています。
(4) この論文は、連続制御タスクと離散制御タスクに対する私たちの方法のパフォーマンスを実証し、それをそれぞれ「保守的な活用」と「探求の精神」と呼んでいます。特に、私たちの方法は通常の方法よりも優れた学習結果を達成します。

7.方法:
(1) まず、論文では、探査と利用のバランスが取れた探査と利用のジレンマや、計数法、好奇心主導法などの先行研究におけるさまざまな探査アイデアについて言及しましたが、これらの方法には独自の制限があります。したがって、この論文では、探索と活用の間のバランスをとり、より多くの状態とアクションを探索するための、線形報酬変換に基づく簡単な方法を提案します。

(2) この論文の方法は、線形報酬変換を通じて最適な戦略を変更することなく、訓練プロセス中にロボットがより多くの潜在的な状態と行動を探索することを奨励し、それによって学習におけるバイアスを回避します。これは、オフライン強化学習、オンライン制御、シングルステップのオフライン好奇心探索という 3 種類の深層強化学習タスクに適用できます。

(3) この論文の方法では、研究者らはオフライン強化学習、オンライン連続制御、およびシングルステップオフライン好奇心探索タスクを使用し、さまざまな深層強化学習タスクの結果をテストし、実験を通じてこの方法の効果をテストしました。

(4) 具体的な実装方法としては、連続制御課題では「保守的利用」と呼ばれる報酬関数を変更する手法を、離散制御課題では「探究心」と呼ばれる報酬関数を変更する手法を用いることが実験により証明されている。この論文で説明する方法は、従来の方法よりも優れており、より効果的です。

おすすめ

転載: blog.csdn.net/hehedadaq/article/details/129386815