李弘毅的强化学习

其他 2019-06-09 02:05:00 阅读次数: 0

1\policy Gradient(Review)

　　三个组件:Actor\Enviroment\Reward

　　Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward.

2\Policy of Actor

　　policy:π,是带有参数的network

　　input:机器可以理解的数据,矢量或者矩阵

　　output:动作的选项,有几个就是有几个neuron.network给这几个动作权值.权值不同,采取的policy就不同.

　　流程:Actor-->环境--->判断结果采取action,采取Action之后会得到reward

猜你喜欢

转载自www.cnblogs.com/smartmsl/p/10992342.html

李弘毅的强化学习

强化学习--李宏毅

【李宏毅-强化学习笔记】一、深度强化学习surface

李弘毅机器学习笔记：回归演示

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

【李宏毅深度强化学习笔记】2、深度强化学习算法 Proximal Policy Optimization算法(PPO)

【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning（Basic Idea）

【强化学习】强化学习介绍

【强化学习】强化学习分类

[强化学习]强化学习基础

强化学习的学习～

强化学习学习

李弘毅代码

神经网络反向传播Backpropagation（李弘毅机器学习）

李弘毅机器学习笔记：第二章

李弘毅机器学习笔记：第一章

李弘毅机器学习笔记：第十三章—CNN

李弘毅机器学习笔记：第十一章—Keras Demo

李弘毅机器学习笔记：第五章—分类

强化学习步骤

WAF 强化学习

强化学习介绍

强化学习

强化学习的资料

强化学习笔记

强化学习总结

强化学习基础

强化学习-入门

强化学习（二）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)