ML读书笔记（强化学习） - 代码天地

ML读书笔记（强化学习）

其他 2019-10-28 10:51:17 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/smartcat2010/article/details/102768083

强化学习中，agent的每个action, 只能收到一个间接的反馈（进入到的状态，N步之后可能才有正/负Reward）；

A.

强化学习的核心任务：学习一个从状态空间S到动作空间A的映射，最大化累积收益。

价值迭代：每轮更新所有状态的状态价值函数和动作价值函数的值，等于是策略得到了更新；

策略迭代：每轮内部，所有状态使用一开始的策略，只更新状态价值函数，直至收敛，该轮结束再更新动作价值函数和策略；

B. 深度Q-Learning

走步时，用 $\varepsilon -greedy$ ，在探索和利用之间作平衡；（评估 $Q(S_{t},a)$ 用的是 $max{Q(S_{t+1},a)}$ ）

连续4帧的图像堆叠，作state;

用MSE做损失函数，执行梯度下降更新Q网络；

先探索很多帧之后，再开始从库里抽样进行训练，当前走的帧和该步抽样训练的样本无关系；

C. 策略梯度

D. 探索与利用

$\varepsilon -greedy$ 的不足：探索时，对所有菜都均等概率的试探；应该把重心放到试吃次数少的菜上

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/102768083

ML读书笔记（强化学习）

《强化学习Sutton》读书笔记（三）——动态规划

强化学习（RLAI）读书笔记第八章表格方法的规划与学习

《强化学习Sutton》读书笔记（七）——列表法的计划与学习（Planning and Learning with Tabular Methods）

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

强化学习：入门第一章读书笔记

强化学习（RLAI）读书笔记第一章介绍

《强化学习Sutton》读书笔记（一）——多臂赌博机

强化学习（RLAI）读书笔记第二章多臂老虎机

强化学习（RLAI）读书笔记第五章蒙特卡洛方法

强化学习（RLAI）读书笔记第四章动态规划

强化学习（RLAI）读书笔记第十二章资格迹（Eligibility Traces）

强化学习（RLAI）读书笔记第十一章 Off-policy Methods with Approximation

强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation

强化学习（RLAI）读书笔记第九章On-policy Prediction with Approximation

强化学习（RLAI）读书笔记第十三章策略梯度方法（Policy Gradient Methods）

强化学习（RLAI）读书笔记第十六章Applications and Case Studies（alphago）

强化学习（RLAI）读书笔记第十六章Applications and Case Studies（不含alphago）

《强化学习Sutton》读书笔记（六）——n步Bootstrapping（n-step Bootstrapping）

《强化学习Sutton》读书笔记（四）——蒙特卡洛方法（Monte Carlo Methods）

三、人工智能简史之从遗传算法到强化学习（读书笔记）

ML读书笔记（集成学习）

强化学习（RLAI）读书笔记第六章差分学习（TD-learning）

《强化学习Sutton》读书笔记（二）——有限马尔科夫决策过程

读书笔记 - 多智能体强化学习在城市交通网络信号控制方法中的应用综述

强化学习（RLAI）读书笔记第七章n步自举（n-step Bootstrapping）

强化学习笔记

强化学习学习笔记

强化学习的学习笔记

强化学习（RLAI）读书笔记第三章有限马尔科夫决策过程（finite MDP）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)