深度强化学习在机器人领域的研究与应用讲座笔记 - 代码天地

深度强化学习在机器人领域的研究与应用讲座笔记

其他 2020-04-19 08:50:38 阅读次数: 0

deep q-learning,能发现bug，可以把球击到上面，让他可以自己玩；

alphago 文章在2016.2017的nature

alphago zero 扩展到了其他游戏

alphago start 深度强化学习玩星际争霸

今天介绍如何利用深度强化学习用到机器人上

强化学习解决连续决策问题，目标得到最优策略

马尔科夫决策过程概率图，未来只与当下有关

回报有递归的形式，价值函数也有这种递归关系（这里用到的是随机策略），即贝尔曼方程。

actor-critic是基于策略和基于价值的结合

几种不同类型的价值函数的估计：

DQN：

首先设定目标损失函数，y类似监督学习的标签，是TD Target，基础是q的贝尔曼方程。（类似Q-Learning中的更新环境）

损失函数求梯度

完整算法：

每次都是把数据保存在D中，然后用这个batch的数据训练。

从长远利益出发

无法用于连续行为空间，比如机器人运动。因此另一种方法，策略梯度法：

蒙特卡洛策略梯度

Q Actor-Critic比上一个收敛更快，方差更小。

Advantage Actor-Critic，又加了一个神经网络。更快，方差更小。

在机器人领域的研究：

深度强化学习的主要问题：

1、需要很多样本才能收敛；

2、成功案例多来自于仿真环境，样本手机慢

3、显示中训练不能加速

解决方案：

首先在仿真中训练，再应用

或者模仿学习，人为示范，学习环境动态模型

1、仿真-现实转换

论文：

仿真中随机花生成情况；

使用现实采样数据更新仿真分布

采用PPO算法

2、模仿学习

论文：

先捕捉动物运动，然后放到仿真环境。

需要模型转换，然后模仿，然后适应

IK算法，指定仿真模型关键点，再用IK，计算姿态，追踪关键点。

RL也是用PPO reward来自估计与真实的误差

动态参数

3、基于模型的强化学习

paper

用神经网络逼近P，结果是可以较小时间和数据

重点是实现，idea不是那么重要！

深度强化学习在自动驾驶领域应用

自动驾驶仿真器

CARLA

paper

野生蘑菇菌

发布了53 篇原创文章 · 获赞 8 · 访问量 3060

私信关注

猜你喜欢

转载自blog.csdn.net/def_init_myself/article/details/105447922

深度强化学习在机器人领域的研究与应用讲座笔记

深度强化学习在机器人领域的研究和应用

【论文笔记】基于深度强化学习的机器人操作行为研究综述

基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习

学习笔记：强化学习在机器人中的应用

强化学习在机器人中的应用

【论文笔记】基于分层深度强化学习的移动机器人导航方法

基于强化学习的智能机器人路径规划算法研究（附代码）

NVIDIA自主机器人与深度强化学习解读

深度强化学习算法SAC：让机器人完成任务只需几个小时！

NVIDIA 自主机器人与深度强化学习PPT截图

[论文]基于强化学习的无模型水下机器人深度控制

深度强化学习：教会机器人做出复杂决策

强化学习 - 机器人走迷宫

机器人开发新思路——强化学习

机器人强化学习之使用 OpenAI Gym 教程与笔记

【强化学习】深入浅出强化学习--机器人找金币

用R语言深度强化学习打造智能机器人：实现高级任务自动化

《从机器学习到深度学习》笔记（3）强化学习

深度强化学习笔记

为什么强化学习会成为当下机器学习最火的研究领域？

强化学习：开发强化学习智能体，用于解决游戏、自动驾驶或机器人控制问题

机器人研究领域2

强化学习：机器人找金币MDP仿真环境搭建

四足机器人——强化学习实现minitaur运动控制（仿真环境篇）

四足机器人——强化学习实现minitaur运动控制（决策模型篇）

四足机器人——强化学习实现minitaur运动控制（介绍篇）

OSU双足步行机器人 Cassie利用强化学习站立的源码实现

干货 | 浅谈机器人强化学习--从仿真到真机迁移

基于强化学习（Reinforcement learning，RL）的机器人路径规划MATLAB

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)