【李宏毅-强化学习笔记】p8、Imitation Learning

其他 2020-02-14 20:06:01 阅读次数: 0

Imitation learning就是模仿学习，以聊天及机器人为例，我们很难去定义reward function，但我们手上有大量的对话数据。然后我们就让机器去模仿人类来对话，采取的方法主要有两种：behavior cloning和inverse reinforce learning。

一、behavior cloning

监督学习的方式，例如用CNN训练一个model，看到某个图片就突出action。
优点是：简单。
缺点是：数据量有限没有撞墙的case，也就是说训练和test之间可能mismatch。改善的方案是data aggregation。另外一点就是可能会把expert多有的内容学过来二不加以区分。
在这里插入图片描述

二、Inverse Reinforcement Learning

没有reward function只有expert的demonstration（数据记录-trajectory），Actor可以和环境互动，但是其reward function只能从环境中反推出来。找出reward function 后再根据清强化学习的方法接着训练。
在这里插入图片描述
老师讲，这其实和GAN的思路没差，但我没学过GAN。按照我的理解，反正现在就是无奖励的背景去模仿学习，现在我们已经有expert的N笔实验数据和actor的实验数据，然后就去learn一个network（reward function）让expert的分数比actor高，然后actor就会更新自己，尽量和expert分数一样，之后再调整reward function，…。

这和我们之前讲的actor-critic思想其实也没差。现在的认识还很粗浅，这样视频课就刷玩了，后面会看下别的课程、paper以及要开始动手实战了。加油。

萧人

发布了12 篇原创文章 · 获赞 1 · 访问量 259

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43522964/article/details/104302132

【李宏毅-强化学习笔记】p8、Imitation Learning

【李宏毅深度强化学习笔记】8、Imitation Learning

机器学习：李宏毅深度强化学习笔记（五）Imitation Learning

李宏毅深度强化学习(国语)课程(2018) 笔记（八）Imitation Learning

【李宏毅-强化学习笔记】p3-p5、Q_learning

【李宏毅深度强化学习2018】P3 Q-learning（Basic Idea）

机器学习：李宏毅深度强化学习笔记（二）Q-Learning

【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning（Basic Idea）

【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning（Basic Idea）

【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）

李宏毅机器学习——学习笔记（8）Deep Learning

【李宏毅深度强化学习笔记】4、Q-learning更高阶的tip (Advanced Tips)

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

李宏毅深度强化学习(国语)课程(2018) 笔记（四）Q-learning （Advanced Tips）

李宏毅深度强化学习(国语)课程(2018) 笔记（三）Q-learning （Basic Idea）

李宏毅深度强化学习(国语)课程(2018) 笔记（五）Q-learning （Continuous Action）

<Machine Learning - 李宏毅> 学习笔记

mate learning学习笔记（李宏毅）

【李宏毅深度学习合辑】Advanced Topics in Deep Learning - Imitation Learning

强化学习-概念05：Imitation Learning

李宏毅Machine Learning 学习笔记（1) Regression

李宏毅学习笔记44.Meta Learning

李宏毅Deep Reinforcement Learning笔记

李宏毅机器学习入门P1 Introduction of Machine Learning 笔记

李宏毅机器学习 P15 “Hello world” of deep learning 笔记

李宏毅机器学习 P13 Brief Introduction of Deep Learning 笔记

李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling

深度强化学习之模仿学习（Imitation Learning）

李宏毅机器学习课程笔记7：Transfer Learning、SVM、Structured Learning - Introduction 李宏毅机器学习课程笔记7：Transfer Learning、SVM、Structured Learning - Introduction

李宏毅机器学习课程笔记7：Transfer Learning、SVM、Structured Learning - Introduction

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)