深度强化学习中的奖励稀疏问题

DRL Lecture 7 – Sparse Reward – notes – Hung-yi Lee

深度强化学习中的奖励稀疏

To solve sparse reward problems, three directions:

1. Reward Shaping

环境有真正的reward,但自己设计额外的reward

Ex: for a child:
Take “Play”, r t + 1 = 1 r_{t+1} = 1 , r t + 100 = 100 r_{t+100} = -100
Take “Study”, r t + 1 = 1 r_{t+1} = -1 , r t + 100 = 100 r_{t+100} = 100
Design: Take “Study”, r t + 1 = 1 r_{t+1} = 1

Vizdoom: A First-person shooting game
在这里插入图片描述 活着:-0.008(负数是为了强迫agent变得“好战”)
掉血:-0.05
弹药损失:-0.04
捡血:0.04
捡弹药:0.15
待在原地:-0.03
(参数是调出来的)

1.1 Curiosity

在这里插入图片描述同时希望 r t r_{t} , r t i r^{i}_{t} 越大越好
ICM = intrinsic curiosity module 代表着Curiosity
ICM的设计:
原始设计Input: s t s_{t} (现在的state), a t a_{t} (现在state采取的action), s t + 1 s_{t+1} (下一个state)
Output: r t i r^{i}_{t}

Network1: 根据 a t a_{t} , s t s_{t} ,预测下一个state: s ^ t + 1 \hat{s}_{t+1}
(Network1是另外train出来的,apply到agent互动时,ICM会把它固定住)

diff: 真实的 s t + 1 s_{t+1} 与预测的 s ^ t + 1 \hat{s}_{t+1} 越不相似,奖励 r t i r^{i}_{t} 越大
Large reward if s t + 1 s_{t+1} is hard to predict. => 鼓励冒险

问题:Some states is hard to predict, but not important.
只鼓励agent去冒险是不够的,要让agent知道什么是真正重要的。
引入: Feature Ext
在这里插入图片描述Feature Ext 作用是把无意义的画面state 过滤掉(例如,风吹草动)
Φ \Phi is useful features related to actions
Network2, 输入是 Φ ( s t ) \Phi({s}_t) Φ ( s t + 1 ) \Phi({s}_{t+1}) , 输出 a ^ \hat{a} , 与真实的动作 a a 越接近越好,如果输出 a ^ \hat{a} 与真实 a a 无关,则滤掉这一画面。

2. Curriculum Learning

 为机器的学习做规划,顺序给予training data, 通常由易到难。

VizDoom里的怪物速度与生命值Reverse Curriculum Generation
在这里插入图片描述在这里插入图片描述

3. Hierarchical Reinforcement Learning

阶层式强化学习:将大的task分解为小tasks

在这里插入图片描述粉红色代表 上层提出来的goal

发布了2 篇原创文章 · 获赞 0 · 访问量 64

猜你喜欢

转载自blog.csdn.net/sinat_38316070/article/details/105065627