多臂赌博机问题 - 代码天地

多臂赌博机问题

其他 2018-12-15 21:05:03 阅读次数: 0

http://45.56.108.214 这位博主的介绍很详细，值得研究一下！
多臂赌博机系列1
假想一个风投他想着他的收益最大化,这时他总会面临一个两难: 何时去投资那些已经成功的公司,何时去投资那些还没有成功但具有很大潜力的公司.这里套用股市里的一句话:收益总是伴随着风险的.
一个成功的风投必须处理好这个勘探-开发两难(exploitation and exploration trade off): 勘探过多意味着不能获得较高的收益,而开发过多意味着可能错过更高回报的机会.
在数学领域, 这个问题已经被研究过,被称为多臂赌博机问题(multi-armed bandit problem),也称为顺序资源分配问题(sequential resource allocation problem). 它被广泛应用于广告推荐系统,源路由和棋类游戏中.

描述
假设有K个老虎机并排放在我们面前,我们首先给它们编号1,…i,…,K,每一轮,我们可以选择一个老虎机来按,同时记录老虎机给出的奖励. 假设各个老虎机不是完全相同的,经过多轮操作后,我们可以勘探出各个老虎机的部分统计信息,然后选择那个看起来奖励最高的老虎机. 在多臂赌博机中,我们把老虎机称为臂.

这里有两个问题:

1）奖励以什么方式产生？
我们可以想见有很多种方式产生这种奖励

①随机式(stochastic bandit): 臂i的奖励服从某种固定的概率分布Di
②对抗式(adversarial bandit): 赌场老板使坏,会动态调整臂的奖励,比如让你选的臂的奖励很低,但是其它未选的臂奖励变高.注意这里赌场老板不能也不会使全部臂的奖励变为0,因为这样会使我们无法得到奖励,这时我们体验到的是任何策略都是无差别的.
③马尔可夫式(Markovian bandit): 臂奖励由马尔可夫链定义.
2）如何测量策略的好坏？
简单的以总奖励作为测量策略好坏的标准是不切实际的. 所以我们定义*遗憾(regret)*作为策略好坏的指标,指的是我们可以达到的最理想总奖励与实际得到的总奖励.

猜你喜欢

转载自blog.csdn.net/qq_33404590/article/details/84861481

多臂赌博机问题

强化学习中的问题--多臂赌博机与上下文赌博机

强化学习 2.多臂赌博机

多臂赌博机序言：术语简介

多臂赌博机Multi-Armed Bandit(MAB)

强化学习多臂赌博机

强化学习导论笔记：多臂赌博机问题（初稿）

强化学习导论第二章多臂赌博机问题

【强化学习】多臂赌博机问题(MAB)的UCB算法介绍

《强化学习Sutton》读书笔记（一）——多臂赌博机

[归纳]强化学习导论 - 第二章：多臂赌博机

《强化学习》——CH2 多臂赌博机笔记

强化学习代码实战(2) --- 多臂赌博机

强化学习代码实战---多臂赌博机---AttributeError: ‘EntryPoints‘ object has no attribute ‘get‘

强化学习算法复现（一）:k臂赌博机问题

在多臂赌博机的实际环境下测试贪心策略，玻尔兹曼策略，UCB策略。

随机多臂赌博机 (Stochastic Multi-armed Bandits)：置信上界算法 (Upper Confidence Bound)

机器学习-K-摇臂赌博机相关算法

多臂老虎机问题

强化学习之三点五：上下文赌博机（Contextual Bandits）

强化学习之三：双臂赌博机（Two-armed Bandit）

机器学习（二十六）——K-摇臂赌博机

强化学习 K-摇臂赌博机模型 Multi-armed Bandit，Python代码

2 K 摇臂赌博机(探索与利用贪心法 softmax）（周志华）

强化学习笔记：多臂老虎机问题

【强化学习入门】梯度赌博机算法中，偏好函数更新：梯度上升公式是精确梯度上升的随机近似的证明

强化学习系列（二）：Multi-armed Bandits(多臂老虎机问题）

初探强化学习：置信区上界解决多臂老虎机问题

MATLAB强化学习入门——一、多臂赌机问题

【强化学习】动手学强化学习：多臂老虎机问题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)