深度强化学习中的奖励稀疏问题

其他 2020-03-24 12:16:01 阅读次数: 0

DRL Lecture 7 – Sparse Reward – notes – Hung-yi Lee

深度强化学习中的奖励稀疏

To solve sparse reward problems, three directions:

1. Reward Shaping

环境有真正的reward，但自己设计额外的reward

Ex: for a child:
Take “Play”, $r_{t+1} = 1$ , $r_{t+100} = -100$
Take “Study”, $r_{t+1} = -1$ , $r_{t+100} = 100$
Design: Take “Study”, $r_{t+1} = 1$

Vizdoom: A First-person shooting game
在这里插入图片描述活着：-0.008（负数是为了强迫agent变得“好战”）
掉血：-0.05
弹药损失：-0.04
捡血：0.04
捡弹药：0.15
待在原地：-0.03
（参数是调出来的）

1.1 Curiosity

在这里插入图片描述同时希望 $r_{t}$ , $r^{i}_{t}$ 越大越好
ICM = intrinsic curiosity module 代表着Curiosity
ICM的设计：
原始设计 Input: $s_{t}$ （现在的state）, $a_{t}$ （现在state采取的action）, $s_{t+1}$ （下一个state）
Output: $r^{i}_{t}$

Network1: 根据 $a_{t}$ , $s_{t}$ ,预测下一个state: $\hat{s}_{t+1}$
（Network1是另外train出来的，apply到agent互动时，ICM会把它固定住）

diff: 真实的 $s_{t+1}$ 与预测的 $\hat{s}_{t+1}$ 越不相似，奖励 $r^{i}_{t}$ 越大
Large reward if $s_{t+1}$ is hard to predict. => 鼓励冒险

问题：Some states is hard to predict, but not important.
只鼓励agent去冒险是不够的，要让agent知道什么是真正重要的。
引入： Feature Ext
在这里插入图片描述 Feature Ext 作用是把无意义的画面state 过滤掉（例如，风吹草动）
$\Phi$ is useful features related to actions
Network2, 输入是 $\Phi({s}_t)$ 和 $\Phi({s}_{t+1})$ , 输出 $\hat{a}$ , 与真实的动作 $a$ 越接近越好，如果输出 $\hat{a}$ 与真实 $a$ 无关，则滤掉这一画面。

2. Curriculum Learning

 为机器的学习做规划，顺序给予training data, 通常由易到难。

VizDoom里的怪物速度与生命值 Reverse Curriculum Generation
在这里插入图片描述

3. Hierarchical Reinforcement Learning

阶层式强化学习：将大的task分解为小tasks

在这里插入图片描述粉红色代表上层提出来的goal

发布了2 篇原创文章 · 获赞 0 · 访问量 64

私信关注

猜你喜欢

转载自blog.csdn.net/sinat_38316070/article/details/105065627

深度强化学习中的奖励稀疏问题

深度强化学习之稀疏奖励（Sparse Reward）

深度强化学习——第十章稀疏奖励

【深度强化学习】7. 稀疏奖励和模仿学习

强化学习稀疏奖励问题（sparse reward）及解决方法

如何解决稀疏奖励下的强化学习？

强化学习--稀疏奖励解决方法

强化学习-概念04：稀疏奖励(Sparse Reward)

【ICLR2020】通过强化学习和稀疏奖励进行模仿学习

强化学习中的好奇心奖励机制

(重磅)深度强化学习系列之（7）-----强化学习《奖励函数》的设计和设置（reward shaping）

深度强化学习中的泛化

强化学习之奖励reward

机器学习-55-RL-Sparse Reward(强化学习-稀疏奖励:Reward Shaping,Curriculum Learning,Hierarchical RL)

强化学习从基础到进阶--案例与实践含面试必知必答[9]：稀疏奖励、reward shaping、curiosity、分层强化学习HRL

深度强化学习

揭秘深度强化学习-5 评估奖励之Q-learning算法

深度学习-强化学习

【学习】深度强化学习

RUDDER：回报分解解决强化学习得奖励延迟问题

深度学习中的强化学习和对抗学习

深度强化学习- 最全深度强化学习资料

深度强化学习DQN

深度强化学习汇总

对深度强化学习的理解

深度强化学习剖析

深度强化学习—DQN

深度强化学习概述

深度强化学习笔记

深度强化学习的未来

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)