《强化学习》基于策略的方法

基于策略RL和基于值函数RL

直觉

这里写图片描述
这里写图片描述

不同种类的策略

这里写图片描述
这里写图片描述

策略梯度形式

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

LOG技巧

这里写图片描述

REINFORCE

这里写图片描述
这里写图片描述

with baseline

这里写图片描述
这里写图片描述

Actor-Critic

Advantage Actor Critic

这里写图片描述
这里写图片描述
这里写图片描述

policy based 和 Value based

这里写图片描述

A3C

这里写图片描述

结合监督学习和强化学习

这里写图片描述
这里写图片描述
这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/80748075