Q-learning简化过程 - 代码天地

Q-learning简化过程

其他 2018-07-06 12:05:03 阅读次数: 0

Q learning里的核心思想是如下公式：

其中，第一个Q（S, A）是更新后的值，第二个 Q（S, A）是Q表中值，a是指学习效率，r是奖励值。\gamma是折扣因子。第三个Q是指要选取Q表中的最大值。最后一个表示Q表中值，与第二个Q一样。

现在通过书中的伪代码来展示Q-learning的过程：

1. 初始化Q-Table：Q-table|S|*|A|的矩阵。其中，|S|代表了所有的状态，|A|代表了所有的动作。矩阵中各个元素首先初始化为0。

2. 进入循环1

3. 进入循环2：

3.1 带入当前状态。若为第一次循环，此处需随机选择一个状态作为初始状态；

3.2 为该状态选择一个动作：需注意，此处有一个学习效率。选择动作的方法为：agent有1-a的概率，随机选择动作；有a的概率，选择对应Q值最大的动作；

3.3 据当前状态S和当前动作A，得出下一个状态S‘和奖励R；

3.4 通过上图公式更新Q-table；

3.5 更新状态。

注意：循环1的结束可以为Q-table中的值收敛。也可以为一个固定值，例如整个程序运行1000次，停止。循环2的结束条件为到达最终状态。

猜你喜欢

转载自blog.csdn.net/liverpool_05/article/details/80239182

Q-learning简化过程

Q-Learning demo

Q-Learning

什么是 Q-learning

Q-Learning code

Q-learning算法实现

Q-learning 例子注释

Q-learning学习笔记

代码实现Q-learning

q-learning精讲

Q-learning算法汇总

Q-learning算法介绍

经典Q-learning讲解

Deep Reinforcement Learning with Double Q-learning

强化学习 Q-learning

强化学习之Q-learning

Q-learning through Flappy Bird

Q-Learning算法学习

什么是sarsa, sarsa与q-learning的区别

Q-learning与Sarsa算法的区别

Q-learning 理解以及简单实现

Q-learning算法实现1（matlab）

强化学习-Q-learning

从Q-learning到DQN的理解

漫谈DQN之Q-Learning

强化学习-Q-Learning算法

强化学习Q-learning

增强学习（一）：基础，Q-learning

强化学习——Q-learning算法

A Painless Q-learning Tutorial（转）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)