强化学习笔记一 N-armed bandit Problem - 代码天地

强化学习笔记一 N-armed bandit Problem

其他 2018-12-25 21:23:32 阅读次数: 0

本篇笔记是RL学习的入门，介绍N-armed Bandit问题和解决算法。

N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机，在每一步你都有n种选择，每一个选择会给你一定的回报，目标是尽量获得最高的收益。

先定义估计值 ${Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}$ ，即为在t步中选择a获得收益的均值。

解决方法分为两类，exploitation和exploration方法。

Exploitation
Greedy方法就是每次取估计值最大的选择，好处是简单，坏处是由于估计值与真实值不相等，所以往往选择的是次优的选择，而且greedy方法没有跳出机制，即会一直困在当前次优选择上，无法选择到最优值。

Exploration
我们将greedy结合一个跳出的机制，即为 $\epsilon-greedy$ 方法，每次以 $1-\epsilon$ 的概率取估计值最大的选择，以 $\epsilon$ 的概率随机取一个选择。当时间足够长的时候，这种方法表现会比greedy要好。 $\epsilon$ 较大时收敛较快，但收敛的值会稍小于optimal value，较小时收敛较慢，但收敛的值会更趋近于optimal value。

另一种结合Exploitation和Exploration的是softmax方法。在t步选择a的概率为
$\frac{e^{Q_t(a)/\tau}}{\sum_{i=1}^n e^{Q_t(i)/\tau}}$
当 ${\tau}$ 趋近1时，softmax变为随机等概率选择；当 ${\tau}$ 趋近0时，softmax变为greedy选择。

证明 ${\tau}$ 趋近0时，softmax变为greedy选择：

softmax和 $\epsilon-greedy$ 好坏取决于具体情况。

其他还有很多种方法，例如UCB等等，具体不详细介绍了。

猜你喜欢

转载自blog.csdn.net/thormas1996/article/details/82935349

强化学习笔记一 N-armed bandit Problem

强化学习方法（一）：探索-利用困境exploration exploitation，Multi-armed bandit

强化学习之三：双臂赌博机（Two-armed Bandit）

强化学习 K-摇臂赌博机模型 Multi-armed Bandit，Python代码

Multi-Armed bandit --------强化学习（含ucb python 代码）

【RL系列】Multi-Armed Bandit笔记补充（一）

【RL系列】Multi-Armed Bandit问题笔记

【RL系列】Multi-Armed Bandit笔记补充（二）

Bourne强化学习笔记3：在简单的Bandit问题中抓住强化学习的本质

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

论文笔记——Contextual Multi-armed Bandit Algorithm for Semiparametric（半参数） Reward Model

Bandit

Wargames-bandit学习笔记

多臂赌博机Multi-Armed Bandit(MAB)

强化学习中的multiarmed-Bandit以及经典解法epsilon-greedy算法，附加python实现

The Epsilon-Greedy /UCB ("upper confidence bound") for MAB (Multiarmed-bandit) problem sometime in reinforcement learning (RL)

推荐系统︱基于bandit的主题冷启动在线学习策略

bandit game

Bandit算法

强化学习笔记（一）

cs231n---强化学习

强化学习的N臂匪徒模型

《强化学习Sutton》读书笔记（六）——n步Bootstrapping（n-step Bootstrapping）

强化学习笔记-07 n-step Bootstrapping 多步TD时分学习

CNN笔记（CS231N）——强化学习（Reinforcement Learning）

强化学习系列（二）：Multi-armed Bandits(多臂老虎机问题）

推荐系统遇上深度学习(十二)--推荐系统中的EE问题及基本Bandit算法

A Contextual-Bandit Approach to Personalized News Article Recommendation-论文学习

【CF960G】Bandit Blues（第一类斯特林数,FFT）

CF960G Bandit Blues（第一类斯特林数）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)