强化学习--基础概念

在这里插入图片描述

算法对比
Q-learning off-policy greed
Sarsa on-policy safe

Sarsa(lamada)

猜你喜欢

转载自blog.csdn.net/xihuanzhi1854/article/details/89846457