RLAI读书笔记-第三章-MDP - 代码天地

RLAI读书笔记-第三章-MDP

其他 2018-08-29 14:48:58 阅读次数: 0

目标: 有限的马尔科夫决策过程
解决大部分的强化学习框架MDP Markov Decision Processes

3.1 agent-environment interface
介绍agent和env之间的交互过程: St +At 得到Rt+1 P70
实际应用中哪些被认为是env 哪些被认为是agent P74
状态转移矩阵或者转换矩阵以及Reward的初始设计

3.2 Goals and Rewards
Goals = 最大化的Rewards
Reward = 想要使机器人最终达到的状态(比如棋牌类的获胜) 而不是how to achieved

3.3 Returns and Episodes(剧情)
discount rate折扣因子γ
γ->1 越加有远见,将来的reward也很重要
γ->0 越近视,只关心current reward
example Pole-Balancing 木杆平衡问题 P78

3.4 unified Notation for Episodic and continuing Task
剧情和连续任务的统一表示法没啥好说的

3.5 Policies and values functions
π 策略,状态到动作的映射==》对于状态S不同Action有着不同的P概率
basic idea:
Gt = Rt+1 + γGt+1 (当前Goal只需要得到下一步的Goal’ * discount γ)
注:
1.state-value funciton(最优策略等价于最优状态值函数) state-action funtion(在某一状态下采用某一动作的q)
2.某一时间t的value不是固定的,但是它的期望是可计算的(S’不同action的Reward *γ)
3.V(S_t+1) = E(G_t+1) t+1时的G期望 == Value
3.6 最优化policy
关键:
state-value funciton(最优策略等价于最优状态值函数)
bellman最优方程求γ*Max_q(s’,a’)
3.7optimality and approximation 最优性和近似性
3.8总结
还没看。。

3.9 MDP 知乎
参考读书笔记1:
https://zhuanlan.zhihu.com/p/25498081
注意下S各个状态的初始计算？？解线性方程组
注意下关于强化学习的分类

参考读书笔记2:
https://www.cnblogs.com/steven-yang/p/6480666.html

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/81983051

RLAI读书笔记-第三章-MDP

强化学习（RLAI）读书笔记第三章有限马尔科夫决策过程（finite MDP）

第三章运输层读书笔记

《图解HTTP》读书笔记——第三章

CSAPP 第三章读书笔记

图解HTTP读书笔记.第三章

《文明之光》第三章读书笔记

代码整洁之道-读书笔记（三）第三章函数

读书笔记：《算法图解》第三章递归

【机器学习】周志华读书笔记第三章线性模型

Reinforcement Learning:An Introduction 第三章读书笔记

数据挖掘读书笔记--第三章：数据预处理

长尾理论读书笔记：第三章长尾简史

读书笔记-《机器学习》第三章：线性模型

构建之法--第三章读书笔记（1）个人能力的衡量与发展

《Effective Objective-C 2.0》读书笔记---第三章

现代操作系统读书笔记--第三章内存管理

机器学习-第三章线性模型读书笔记（周志华）

推荐系统实践读书笔记-第三章

UNIX网络编程第三章读书笔记

c++primer plus 6 读书笔记第三章处理数据

读书笔记：Android设计模式第三章

《C专家编程》第三章读书笔记

Java并发编程实战:第三章读书笔记

Java多线程编程核心技术-----第三章读书笔记

鸟叔的Linux私房菜读书笔记第三章

深入理解java虚拟机第三章读书笔记

[随笔][Java][读书笔记][think in java][第三章流程控制]

JavaScript高级程序设计----读书笔记，第三章

Java编程思想读书笔记——第三章：操作符

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)