【人工知能Ⅱメモ】初心者向けの強化学習の概念はたくさんある

人工知能 II 学習内容:
ここに画像の説明を挿入

参考資料:
授業講師の解説やコースウェアを中心に使用しており、絵が好きです。
参考ネットワーク情報:
【Pythonは気にしない】強化学習
【Wang Shusen】深層強化学習(DRL)
李紅儀講座 - 強化学習
deep-rl-course
(情報が多いので読めない方はご注意ください)すべて、最善のものを選択し、最初に考えてから、質問がある場合は検索してください)

強化学習のエッセンス

環境との相互作用における学習戦略。
ここに画像の説明を挿入

強化学習の概念

ここに画像の説明を挿入
ここに画像の説明を挿入
知的主体(エージェント)は、
ある戦略(ポリシー)に従って、現在の状態(ステート)に応じて適切な行動(アクション)を選択する。インテリジェント エージェントは、アクションを通じて環境に影響を与えます
エージェント: システム内のアクションの開始者。
状態:エージェントによる環境解釈アクション:環境の主観的な主導権に対する知的エージェントの影響を反映しており、アクションによってもたらされる利益は報酬と呼ばれます。強化学習の目的は、できるだけ高い報酬を得ることです。ポリシー: 観察された状態に基づいて決定を行い、エージェントの動きを制御します。知的エージェントは、環境変化の法則を知っている場合もあれば、知らない場合もあります。システム内の知的エージェント以外の部分は、ステータスや報酬を知的エージェントにフィードバックし、一定のルールに従って変化します。栗:二番目の栗

ここに画像の説明を挿入

ここに画像の説明を挿入







強化学習におけるランダム性の原因

ランダム性のソース: ① アクション: 状態が与えられると、アクションはポリシー関数 π に従ってランダムにサンプリングされます; ② 状態遷移 状態変換: 次の状態は状態と状態遷移関数によってランダムにサンプリングされます。

強化学習の特徴(比較)

教師あり学習、教師なし学習、強化学習の比較:

教師あり学習: 「ラベル」があり、教師ありアルゴリズムはモデルを継続的に調整して入力と出力のマッピング関数を取得できます。1 回だけ与えられる教師あり学習に基づいています。単一ステップの決定。目標は、サンプルを意味ラベルにマッピングすることです。
教師なし学習: 「ラベル」はなく、データ自体を分析してモデリングし、基礎となる情報と隠れた構造を発見します。データ構造の前提に基づいて、一度与えられます。決定はありません。同様のデータ分布パターン。
オンライン学習: 「ラベル」なし、評価 (評価) に基づいて、新しいデータを受け入れ、パラメーターを更新します。データはインタラクティブに生成されます。順次決定プロセス。目標は、最大の利点を得るマッピングを取得することです。

ここに画像の説明を挿入
強化学習と教師あり学習の対照:
(1)トレーニング データにはラベルはなく報酬関数(報酬関数) のみが存在します。
(2) 学習データは既成のものではなくアクション(Action)によって取得されます
(3) 現在の行動(Action) は、その後の学習データの取得に影響を与えるだけでなく、報酬関数(Reward Function)の値にも影響を与えます(4) トレーニングの目的は、状態 (State) が現在の内部および外部環境を記述する状態 -> 行動」の関数を構築することであり、この場合、エージェント (Agent) を特定の状態にすることです。 、
この機能を通じて、現時点でとるべき行動を決定しますこれらのアクションを実行した後、最終的には最大の報酬関数値が得られることが期待されます

いくつかの一般的な強化学習アルゴリズム

ここに画像の説明を挿入
環境把握による分類:
ここに画像の説明を挿入
分類根拠による分類:
ここに画像の説明を挿入
更新方法の分類:
ここに画像の説明を挿入
オンラインかオフラインか:
ここに画像の説明を挿入


次の記事: 離散マルコフ過程 (離散マルコフ過程) - トレーニング学習法としての強化学習
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_45973306/article/details/123299519