强化学习之阶段性任务和连续性任务3 - 代码天地

强化学习之阶段性任务和连续性任务3

其他 2019-04-14 08:50:52 阅读次数: 0

在这里插入图片描述
阶段性任务是设置一个停止点在阶段停止的时候，agent回顾这一阶段所获得的回报，看他自己做得如何。然后在下一回合，在同样的环境下，利用上一个阶段的知识，采取更好的行动获得最大的reward。例如一盘棋下完就是一个阶段，agent 从第一盘棋中获取经验，来下第二盘棋获得更好地经验。

在这里插入图片描述
连续任务是没有停止点的，智能体必须边学采取最佳动作，边和环境交互。例如买卖股票，市场是一值存在的，所以不存在一个截至点，agent需要一直学下去。

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/89292468

强化学习之阶段性任务和连续性任务3

气功修炼的阶段性任务

CISSP学习：第3章业务连续性计划

阶段性学习总结

DeepMind PotArt多任务深度强化学习获突破性进展

目标检测入门阶段性任务-3月8日至3月12日

函数的连续性

谈一谈连续性学习

连续性学习论文及代码汇总

git和GitHub学习总结（学习阶段性总结）

获奖感想和JAVA阶段性学习总结

个人阶段性学习和规划总结(技能树)

微积分：连续性和可导性

关于稠密性和连续性的通俗理解

HTML阶段性练习3

阶段性总结之考研（暑假）

阶段性总结之考研（复试）

阶段性总结之考研（初试）

项目管理之阶段性工作

阶段性寄语

阶段性小结

========阶段性回顾======

阶段性总结

阶段性的来袭

性能测试学习阶段性总结

Java阶段性学习重点

EOS学习阶段性总结

web技术学习阶段性总结

学习做产品阶段性总结

mySQL阶段性学习总结

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)