RLAI读书笔记-第二章-Multi-armed Bandits - 代码天地

RLAI读书笔记-第二章-Multi-armed Bandits

其他 2018-08-29 14:49:13 阅读次数: 0

目标:balancing exploration(探索) exploitation(贪心利用)

别人的读书笔记 mark:
https://www.cnblogs.com/steven-yang/p/6476034.html

2.2 action-value method
Qt(a) = avg(时间t以前所有动作A=a的Reward)平均值
At = Max(Qt(a))当前时间所有可能action的最大Q的策略
==》扩展: 小概率的(0.1)的exploration “-greedy

2.3 the 10-armed test
给出10个动作的Q,比较greedy的收敛情况以及exploreation
结论:
如果Reward之间的方差较大,0.1左右的随机Greedy效果更有效
greedy的exploreation只有1/3的动作覆盖率
考虑非平衡性(Action的Reward可能在将来出现不断变化)的问题

2.4 增量的Q实现
P53 增量公式推导
P54 伪代码
和QL 思想真的很像啊
Q(A) <= Q(A) + 1/N(A) * {R - Q(A)} 在旧的Q加上步长*和目标之间的偏差

2.5 NonStationary Problem
==>相当于带权值的增量实现
非平稳性的Reward =》需要更多依赖于最近的Reward
Q(N+1) = Q(N) + α{R(N) - Q(N)}
//2.4的step size设计成 0,1之间的参数alpha
公式不断展开 P54 ==》α越大,对于之前的依赖也就越少

2.6 optimistic Initial Values
当我们把Q(1)设计值较大时(Reward的均值较小) 哪怕是对于最贪心的Greedy算法都会大大增加exploration
P56 figure
但是对于非平稳性的reward用处不大

2.7 Upper-Confidence-Bound Action Selection
UCB 上限置信度的动作选择
随机Greedy exploration更加随机性，那么UCB方法使得exploration更加倾向于探索没有频繁出现的state

公式P58
最终Reward优于传统的随机exploration,缺点:对于nonstatic + large state space问题不太适用

2.8 Gradient Bandit Algorithms没看懂
公式推导P59
随机梯度上升
结论: Ht(a)对于当前时间的动作偏好程度 (之前的奖励大于baseline越多,偏好程度越大)

2.9 associative search
关联搜索任务之间关联性问题(简述章节)

2.10 Summary
e-greedy 随机的exploration
UCB 依赖于前期时间内的动作频繁程度提高Q或者降低Q,是一种确定性的exploration
Gradient-algorithm 根据前期的动作倾向完成当前动作
(和依赖Reward的本质区别有吗？？似乎一样的)

结论:
UCB的方法一般来说效果更好

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/81914071

RLAI读书笔记-第二章-Multi-armed Bandits

Multi-armed Bandits

《Reinforcement Learning》读书笔记 2：多臂老虎机（Multi-armed Bandits）

Introduction to Multi-Armed Bandits——02 Stochastic Bandits

Chapter 2 Multi-armed Bandits

Introduction to Multi-Armed Bandits——04 Thompson Sampling[2]

Introduction to Multi-Armed Bandits——03 Thompson Sampling[1]

Introduction to Multi-Armed Bandits——01 Scope and Motivation

Introduction to Multi-Armed Bandits——05 Thompson Sampling[3]

bandits

强化学习系列（二）：Multi-armed Bandits(多臂老虎机问题）

随机多臂赌博机 (Stochastic Multi-armed Bandits)：置信上界算法 (Upper Confidence Bound)

《Reinforcement Learning: An Introduction》 Chapter 2 Multi-arm Bandits 笔记

从Multi-arm Bandits问题分析 - RL进阶

2 从Multi-arm Bandits问题分析 - RL进阶

论文笔记——Thompson Sampling for Contextual Bandits with Linear Payoffs(线性收益)

强化学习（RLAI）读书笔记第二章多臂老虎机

RL,MAB与Contextual Bandits区别

推荐系统1---bandits

第二章读书笔记

【RL系列】Multi-Armed Bandit笔记补充（二）

Reinforcement Learning:An Inteoduction第二章读书笔记

推荐系统实践读书笔记-第二章

读书笔记：Android设计模式第二章

《图解HTTP》读书笔记——第二章

《锋利的JQuery》读书笔记——第二章

第二章软件如何工作（读书笔记）

《构建之法》第二章读书笔记

js设计模式第二章读书笔记

java编程的逻辑读书笔记——第二章

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)