2019/5/12

一、基于jym构建环境

1、物理引擎和环境引擎

仿真环境(仿真器)需要物理引擎和图像引擎。物理引擎模拟环境中物体运动规律,图像引擎显示环境中物体图像。

render()图像引擎        step()物理引擎2

2、强化学习定义

找到最优策略(决策序列)\pi*使累计回报R(t)的期望最大:s\rightarrowu*(s 状态 u 决策 )

*注:R(t)使随机变量无法进行优化,无法作为目标函数,采用累计回报期望\int R\left (\tau \right )p\left_{\pi }\left ( \tau \right )d\tau

                                                    

3、马尔科夫决策

把强化学习问题用马尔科夫决策的的框架表达并解决

马尔科夫性:当前状态s_{t}蕴含所有历史状态(最优策略使每个状态价值最优)

扫描二维码关注公众号,回复: 8536420 查看本文章

马尔科夫过程:随机过程(随机状态序列)的每个状态都是马尔科夫的,表示为二元组(S,P)

                         S有效状态集合、状态转移概率

马氏决策:将动作和回报考虑在内的马尔科夫过程,表示为五元组(S,A,P,R,y)

                          状态集,动作集,转移概率,回报函数,回报累计折扣因子

5、强化学习概率学

                                                                   

依策略\pi,当前状态s下采取动作a的概率为\pi \left ( a\mid s \right )

状态值函数:累计回报在状态s时的期望

6、强化学习树

                                              

7、强化学习解决两个问题:

(1)预测:给定策略π, 求解该策略的状态价值函数v(π)。

(2)控制:求最优状态价值函数和策略。

8、对深度学习及强化学习的理解:

神经网络可以用来拟合函数,强化学习用交互数据来学习规则,深度学习用标定数据来学习规则。

二、思考:机器人控制方面,强化学习可以做什么,深度学习可以做什么?

1、17年爱丁堡大学开发一套深度强化学习分层框架,做机器人平衡控制策略

2、变阻抗控制

3、比传统控制器有更高效率的控制

发布了31 篇原创文章 · 获赞 2 · 访问量 715

猜你喜欢

转载自blog.csdn.net/qq446293528/article/details/90137286