まばらな報酬
アクションが良いのか悪いのかはほとんどの場合わかりません。r = 0 の場合、どうすればそれを修正できるでしょうか?
たとえば、ロボット アームはボルトをネジに固定しますが、開発者はエージェントをガイドするために追加の報酬を定義する必要があります (報酬の形成)。
報酬の形成には、ある程度のドメイン知識が必要です。
エージェントが何か新しいもの (ただし意味のあるもの) を見つけた場合は、追加の報酬を獲得します。
報酬なし:デモンストレーションから学ぶ
モチベーション
タスクによっては、報酬を定義することさえ難しい場合があります。手作りの報酬は制御不能な行動につながります。
模倣学習は報酬なしで使用できます
アクターは環境と対話できますが、ボーナス機能は利用できません。
いくつかの極端なケース(専門家は遭遇していない)では、マシンは何をすべきでしょうか?
エージェントは、無関係なアクションも含め、あらゆる動作を複製します。
逆強化学習
逆強化学習は、専門家に基づいて報酬方程式を逆転させます。
単純な報酬関数は必ずしも単純なアクターを学習するとは限りません
先生のご褒美が一番良いとしますが、それは先生の真似をするということではありません。
原則: 先生はいつでも最高です。
基本的な考え方: 参加者アクターが初期化され、各反復でアクターは環境と対話していくつかの軌道を取得します。
教師の軌道が参加者の軌道よりも良くなるように報酬関数を定義します。参加者は、新しい報酬関数に従って報酬を最大化する方法を学びます。報酬関数と報酬関数から学習したアクターを出力します。
アクターは GAN のジェネレーターに非常に似ており、報酬関数はディスクリミネーターに非常に似ています。
マシンの画面から学習します。