强化学习中的无模型 基于值函数的 Q-Learning 和 Sarsa 学习

强化学习基础:

注:

在强化学习中  奖励函数和状态转移函数都是未知的,之所以有已知模型的强化学习解法是指使用采样估计的方式估计出奖励函数和状态转移函数,然后将强化学习问题转换为可以使用动态规划求解的已知模型问题。

强化学习问题由于采用了MDP数学形式来构建的,由此贝尔曼方程式是我们最常用的,如下:

基础知识可参考:

https://www.cnblogs.com/devilmaycry812839668/p/10306175.html

===================================================================

值迭代求解MDP

贝尔曼最优性方程:

猜你喜欢

转载自www.cnblogs.com/devilmaycry812839668/p/10486497.html