【李宏毅-强化学习笔记】p8、Imitation Learning

Imitation learning就是模仿学习,以聊天及机器人为例,我们很难去定义reward function,但我们手上有大量的对话数据。然后我们就让机器去模仿人类来对话,采取的方法主要有两种:behavior cloning和inverse reinforce learning。

一、behavior cloning

监督学习的方式,例如用CNN训练一个model,看到某个图片就突出action。
优点是:简单。
缺点是:数据量有限没有撞墙的case,也就是说训练和test之间可能mismatch。改善的方案是data aggregation。另外一点就是可能会把expert多有的内容学过来二不加以区分。
在这里插入图片描述

二、Inverse Reinforcement Learning

没有reward function只有expert的demonstration(数据记录-trajectory),Actor可以和环境互动,但是其reward function只能从环境中反推出来。找出reward function 后再根据清强化学习的方法接着训练。
在这里插入图片描述
老师讲,这其实和GAN的思路没差,但我没学过GAN。按照我的理解,反正现在就是无奖励的背景去模仿学习,现在我们已经有expert的N笔实验数据和actor的实验数据,然后就去learn一个network(reward function)让expert的分数比actor高,然后actor就会更新自己,尽量和expert分数一样,之后再调整reward function,…。

这和我们之前讲的actor-critic思想其实也没差。现在的认识还很粗浅,这样视频课就刷玩了,后面会看下别的课程、paper以及要开始动手实战了。加油。

发布了12 篇原创文章 · 获赞 1 · 访问量 259

猜你喜欢

转载自blog.csdn.net/weixin_43522964/article/details/104302132