ML读书笔记(强化学习)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/smartcat2010/article/details/102768083

强化学习中,agent的每个action, 只能收到一个间接的反馈(进入到的状态,N步之后可能才有正/负Reward);

A.

强化学习的核心任务:学习一个从状态空间S到动作空间A的映射,最大化累积收益

价值迭代:每轮更新所有状态的状态价值函数和动作价值函数的值,等于是策略得到了更新;

策略迭代:每轮内部,所有状态使用一开始的策略,只更新状态价值函数,直至收敛,该轮结束再更新动作价值函数和策略;

B. 深度Q-Learning

走步时,用\varepsilon -greedy,在探索和利用之间作平衡;(评估Q(S_{t},a)用的是max{Q(S_{t+1},a)}

连续4帧的图像堆叠,作state;

用MSE做损失函数,执行梯度下降更新Q网络;

先探索很多帧之后,再开始从库里抽样进行训练,当前走的帧和该步抽样训练的样本无关系;

C. 策略梯度

D. 探索与利用

\varepsilon -greedy的不足:探索时,对所有菜都均等概率的试探;应该把重心放到试吃次数少的菜上

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/102768083