時差
背景
時間差の学習はTD学習と呼ばれ、モンテカルロ、彼はまた、エピソードから学んだ、モデル自体を知っている必要はありませんが、それは完全なエピソードを知ることができません。
状態遷移モデルと報酬の場合は、不完全なトラックを学習、関数の値が最適解を得るために、ベーアマンの漸化式(ブートストラップ法)により得られます。。
長所:リアルタイムのオンライン学習は、学習がトラックを完了することはできません。制御工学のためのより適切な。
異なる戦術を持つVS戦略
戦略に:政策戦略と評価サンプリング制御を生成するためには、同じポリシーです。
異なる戦略:政策評価と制御戦略を生成すると、異なるサンプリング戦略です。また、最も重要な理由は、上の最適化戦略を模索するための基本的な式に従うことであるとすることができる、誰かが古いポリシーの一部から学ぶことができる、あなたは2つの戦略のメリットを比較することができ、人間の経験や他の個々の経験から学ぶことが容易既存のポリシーを持っています。
戦略との時差:
![ここに画像を挿入説明](https://img-blog.csdnimg.cn/20200103115317319.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3p4X3poYW5nMDE=,size_16,color_FFFFFF,t_70#pic_center)
アルゴリズムはステップ;
ステップ1:初期化メソッドS、反復T、状態セットS、アクションセットA、すなわち、初期の数を入力します。
SからStep2.Choose A動作の現在の状態から選択される;
Step3.TakeアクションA、R&LT観察、S「新たな状態Sにおける現在のアクションの結果の状態」と、新たな報酬R<
ステップ4:
更新費用関数;
ステップ5:
次の状態が新しい状態に再割り当て。