强化学习(一) - 基础认知 - 代码天地

强化学习(一) - 基础认知

其他 2018-11-10 23:01:55 阅读次数: 0

强化学习 - 基础认知

强化学习是想让一个智能体(agent)在不同的环境状态(state)下，学会选择那个使得奖赏(reward)最大的动作(action)。

Agent在 t 时刻，通过观测环境得到自己所在的 状态(state)，接下来agent根据 策略(policy) 进行决策后，做出一个 动作(action)。这个action就会使得agent在 环境(environment) 中转移到一个新的状态，并且在转移时获得一个 即时奖励(reward) 值，这样agent又可以在新state中重新选择动作。
这样就可以累积很多reward值 $（R0,R1,...,Rt,...,RT）（R0,R1,...,Rt,...,RT）（R_0,R_1,...,R_t,...,R_T）$ $R$ 累积起来最大。即是奖励最大化。

environment model

如果我们知道环境的一切，我们就说这个环境是已知的，即model based。也就是说，在这种情况下，agent知道选择一个动作后，它的状态转移概率是怎样的，获得奖赏是怎样的。这些都知道的话，我们就可以使用 动态规划的方法(DP) 来解决问题。

但是在现实生活中，我们是很难知道状态之间的转移概率。这种情况称为model free。所以我们无法直接使用 ~~动态规划~~ 的方法来解决这种问题。

exploration and exploitation（探索与利用）

上面讲了，在强化学习中，我们的目标就是为了累积奖赏最大化。那么在每次选择动作时，agent会选择在过去经历中它认为奖赏最大的动作去执行。
但是有一个问题是，虽然有些动作一开始的奖赏很小。但是也许在这个动作的后面会有奖赏很大的时候呢？如果agent只是选取当前它认为奖赏最大的动作，那么它有可能陷入了局部最优。 所以，agent需要去探索。探索那些奖赏比较小的动作，也许它后面的奖赏会很大。

当然，探索也不能一直去探索，因为可能你只有有限的时间，不能把时间一直放在探索上面。所以看起来这是一对矛盾体。如何平衡它们是一个很重要的事情。

参考：
强化学习简介
 周志华《Machine Learning》学习笔记（17）–强化学习

        </div>

猜你喜欢

转载自blog.csdn.net/wei2white/article/details/83745556

强化学习(一) - 基础认知

强化学习（一）模型基础

强化学习基础阐述（一）

强化学习一：模型基础

[强化学习]强化学习基础

强化学习基础

【强化学习】强化学习的一些基础理念【一】

强化学习入门（一）强化学习的基础概念及Gym库，Parl库介绍

基础阶段（一）——强化学习的基本认识

强化学习基础（二）

强化学习的基础总结

强化学习--基础概念

深度强化学习系列（二）：强化学习基础

强化学习（二）马尔科夫决策过程(MDP) 强化学习（一）模型基础

【转载】强化学习（二）马尔科夫决策过程(MDP) 强化学习（一）模型基础

强化学习（四）用蒙特卡罗法（MC）求解强化学习（三）用动态规划（DP）求解强化学习（二）马尔科夫决策过程(MDP) 强化学习（一）模型基础

强化学习基础总结（三）

强化学习基础概念笔记

强化学习之最基础篇

强化学习基础知识

强化学习笔记（1）—— 概括与基础

强化学习基础之概念介绍

Reinforcement learning-强化学习基础

模型训练基础：什么是强化学习？

深度强化学习（王树森版）学习笔记（一）——机器学习基础

强化学习之第一篇：基础知识点学习

强化学习基础：Epsilon-greedy 算法，多臂老虎机问题的理解，说点人话的强化学习，一定能看懂

多智能体强化学习入门（一）——基础知识与博弈

强化学习基础第一个程序（建议在DQN跑CartPole之前）

强化学习基础第一个环境（Maze）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)