CS294-112深度增强学习课程（加州大学伯克利分校 2017）NO.4 Learning policies by imitating optimal controllers - 代码天地

CS294-112深度增强学习课程（加州大学伯克利分校 2017）NO.4 Learning policies by imitating optimal controllers

其他 2018-05-23 19:36:45 阅读次数: 0

There are some problems: mismatch of model and reality; gradient explosion

扫描二维码关注公众号，回复： 996227 查看本文章

so, the dynamics can be quite messy, and backpropogating can be quite problematic.

sudden change in velocity and so on. schochastic system. gradient descent can be tough.

can we apply this trajectory optimization method to optimize policy?

GPS: guided policy search

in this case, o_t is from the camera and the joint velocity

猜你喜欢

转载自www.cnblogs.com/ecoflex/p/9078801.html

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)