机器学习第16章(强化学习)

                                  强化学习(reinforcement learning)

16.1 任务与奖赏

策略的优劣取决于长期执行这一策略后所得到的累积奖赏,在强化学习任务中,学习的目的就是要找到能使长期累积奖赏最大化的策略。

强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。

16.2 K-摇臂赌博机

仅探索法能很好的估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂。

softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中,若各摇臂的平均奖赏相当,则选取各摇臂的概率也相当;若某些摇臂的平均奖赏明显高于其他摇臂,则它们被选取的概率也明显更高。

16.3 有模型学习

在已知模型的环境中进行学习称为有模型学习model-based learning。

16.4 免模型学习

若学习算法不依赖于环境建模,则称为免模型学习model-free learning。

16.5 值函数近似

16.6 模仿学习(imitation learning)

 

猜你喜欢

转载自blog.csdn.net/jinhualun911/article/details/108909299
今日推荐