【人工智能与深度学习】不确定性下的预测和政策学习(PPUU)

简介和问题设置

让我们去以一个完全没有强化学习的方式来学习。很多时候,我们训练模型,都是以一个不停犯错同时又由错误中学习的强化学习方式来学习。但这不是最好的方法,因为很容易偏离原先的轨道。

所以,让我们用一些更自认的方式来学习驾驶一辆车。以转弯来说说吧。比如有辆车时速100公里每小时,就是差不

猜你喜欢

转载自blog.csdn.net/m0_61531676/article/details/130475635
今日推荐