强化学习之决策论——笔记

其他 2018-05-23 18:56:47 阅读次数: 2

因为 a 先走 b 跟在后边，一人一步。

第一步：a 在状态1中可以选择左和右。

第二步：然后该 b走了 b可以选择状态2的左，中，右。

第三步：又轮到a 可以选择状态4的左和右。

所以 a 的策略有 4个，b的策略有3个。

把策略的可能写成一个矩阵。如a在状态1走左，b在状态2走右，得分为7.

游戏规则是：

a和b分别是两个玩家。每个玩家都想得到最高的分数，

每个叶子节点是a的分数，b的分数是a的相反数。也就是说 a的分数是7 b的分数就是-7. 因此 b的目的是让a的分数最低。

于是两个玩家进行博弈。因为这是一场零和博弈（两人的分数相加为0，也是说一个人得分，另一个就减分）。因为每个人都是理智的，他们都为了追求自己的最大利益，分数会向中间平衡。最终博弈的结果是红色的方块。

猜你喜欢

转载自www.cnblogs.com/HL-blog/p/9078613.html

强化学习之决策论——笔记

【强化学习笔记】2 马尔可夫决策过程

强化学习笔记

序贯决策与强化学习

3、强化学习--model free决策

强化学习学习笔记

强化学习的学习笔记

人工智障学习笔记——强化学习(1)马尔科夫决策过程

增强学习（强化学习）基础之马尔科夫决策过程

强化学习复习笔记

强化学习入门笔记

深度强化学习笔记

RLChina强化学习笔记

强化学习笔记（二）

强化学习笔记整理

强化学习笔记（四）

强化学习笔记（一）

强化学习笔记（六）

强化学习笔记（五）

强化学习笔记：DDPG

强化学习笔记（三）

强化学习--概念之

强化学习之MDP

强化学习之Sarsa

强化学习之DQN

强化学习之PPO

强化学习之SAC

强化学习之TRPO

强化学习之DDQN

强化学习导论笔记：马尔科夫决策过程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)