增强学习（RL）一些入门资料 - 代码天地

增强学习（RL）一些入门资料

编程语言 2018-12-13 14:47:32 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/kiss_xiaojie/article/details/84985672

增强学习（RL）一些入门资料

概述
- 综述★
MDP
1. 基本概念
2. 解决方法分类
  - model-free & model-based
    - model-based --> 先学习环境，再具体使用规划来得到最优策略。
    - 有点类似于 生成模型 & 判别模型
  - off-plicy & on-plicy
    - [TOTAL] :: 更新价值所使用的方法是沿着既定的策略（on-policy）抑或是新策略（off-policy）
    - off-plicy --> 我们可以利用一个策略（行为策略）来保持探索性，提供多样化的数据，而不断的优化另一个策略（目标策略）。
    - on-plicy --> 在既定的策略下学习更优策略
3. 具体解决方法
  - 动态规划
    - DP --> (model-based)
    - 策略迭代 --> （策略估计，策略改进）
    - 值迭代
  - 蒙特卡洛（MC）
    - MC_简述
    - MC_综述
  - 时间差分（Temporal-Difference Learning）
    - Temporal-Difference★★
    - Q-learning --> (model-free off-plicy)
    - Sarsa --> (on-plicy) ??
POMDP
- ???

猜你喜欢

转载自blog.csdn.net/kiss_xiaojie/article/details/84985672

增强学习（RL）一些入门资料

一些学习资料

【RL】使用强化学习的一些建议

windows IOCP入门的一些资料

Webgl入门的一些资料【转载】

收集SpringBoot的一些学习资料

关于CUDA的一些学习资料

整理的一些Python学习资料

react 的一些学习资料

opencv收集的一些学习资料

分享一些学习资料

关于itchat学习的一些资料

一些优质的学习资料

一些学习资料链接

一些资料

android中文入门一些好资料

一些ADO数据库入门例子与资料

关于Elastic入门的一些上手易懂资料

学习Kotlin一些学习资料视频

DES的一些资料

RSA的一些资料

TCP的一些资料

XenServer一些资料

maven的一些资料

一些爬虫资料

Spring 一些资料

LDA的一些资料

我的一些资料

一些资料整理

ubantu一些资料

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)